close
這週組裡討論了一下Data scientist和我們Statistician的差別。
網路上常用一張圖來描述Data scientist,但我對它有點意見。
那張圖能用來描述資料科學須具備1.程式設計2.統計數學3.相關領域知識,但還讓機器學習和統計的關係變得很詭異。
在我的眼裡,Data scientist就是Statistician升級版。統計學的定義是「在資料分析的基礎上,研究測定、收集、整理、歸納和分析反映資料資料,以便給出正確訊息的科學」。看了這個定義,應該會明白為什麼我覺得統計學和資料科學本質是一樣的,「資料科學」名稱的出現更接近時代進步下重新命名的結果。主要是以前沒有這麼強大的計算能力,所以計算方法從紙筆、計算機、到電腦。到二十世紀末,電腦記憶體足計算能力變很強,寫出的模式(方程式)不用找出理論解,可以直接靠程式、演算法迭帶,讓很多很難解的問題變得能解。統計裡的貝式學派就廣被應用在機器學習裡。
統計推論裡有兩大學派:頻率學派和貝式學派,這兩個學派的區別主要是用不同的視角看問題。
頻率學是從上帝視角出發,我們看到的事件觀察值都是上帝擲骰子的成果,這種推論須要的計算量遠比貝式學派少很多,因此在只有紙筆和計算機的年代,被廣泛使用。但要學習這種推論時,常常要切換到上帝視角去看,對初學者非常不友善,假設檢定、信賴區間、p值、對初學者是惡夢般的存在。但是,雖然入門不容易,一旦想通了,一通百通。
貝式學派則是從一般觀察者視角出發看問題,所以對一般人接受度更高,但模式可能變得很複雜難解,所以雖然理論出現很早,但發展受限。直到電腦計算能力增加,這個推論方法被更大運用。成大雖然有老師是這個領域的,但是我沒接觸過,後來有幸在UF的統計系裡,整個系都是貝式學派...才開始較深的接觸,這個部份是越學越惡夢。
前面說的是統計推論...其實都是用機率去猜,統計在解決一些問題時,也有不用機率的部份。例如:看到一些個體資料,沒有要去猜群體的情況,只是想要整理總結資料本身的情況,這是描述性統計,我們小時候學的圖表、平均值中位數就是在做這些事。非常好學,難度0。但因為難度0反而產生更大的問題:很多人喜歡看了幾個數字圖表,就開始腦補,各種解釋猜測編故事來滿足自己的需求---「 統計數據」因此成為被大眾戲稱為謊言。而現在進入資料科學的時代,雖然名字變好聽了,也更多人開始利用圖表數字來支持自己腦補的世界,造謠和散布謠言的速度也大提升了。最討厭的事是:耗時耗力耗心神又嚴謹的學術結論反而被淹沒,或者說,就算散布出來大家看到了也只當另一種謠言......再次提醒:統計/資料科學只是工具,就像刀一樣,可以用來殺人也可以用來救人,重點是使用者本身。如果想要避開這些謊言謠言、分出哪些是有理有據,可以找一些統計思惟有關的東西來看。
至於機器學習和統計的關係,其實是面對目的的心態有些不一樣:根據目的,通常會定義一個目標分數,越高表視越好。
機器學習希望由一找出一些Features建立一些規則,使目標分數最高。而統計雖然也希望分數高,但是更重視選出的特徵和目標之間這些規則的可解釋性,所以有時候為了可解釋性,反而不會還擇分數最高的模式。
文章標籤
全站熱搜