close
起因是去年美國統計學會(ASA)因為某統計方法被濫用的太嚴重了,所以發了些聲明。
有幾篇文章在介紹,但對沒念過統計的人有點深,但都有幾個很重要的點,我嘗試用白話一點的方式講,希望減少大家對統計的錯誤印象。統計出錯騙人的,大多都是解讀的過程產生的誤會,或是因為”人”沒有按照一定規則進行分析。在說這些問題前,有些必須先介紹的。
有幾篇文章在介紹,但對沒念過統計的人有點深,但都有幾個很重要的點,我嘗試用白話一點的方式講,希望減少大家對統計的錯誤印象。統計出錯騙人的,大多都是解讀的過程產生的誤會,或是因為”人”沒有按照一定規則進行分析。在說這些問題前,有些必須先介紹的。
統計二三事(1)~這裡簡單說明基本的概念~寫給沒學過統計的人看的~
這個被濫用的方法叫”假設檢定”,裡面最被誤解的叫”p值”。這個東西對沒有統計概念的人不是看一次能完全懂的(其實是用文字介紹不好懂=_= ),但是因為他真的太太太常被使用了,像是看藥有沒有效、某某肥料會不會增加產量.....之類的問題,統計上最基本的方法就是靠假設檢定提供參考,所以可以的話請試著想一下了解它。
前面介紹”假設檢定”的部份可能要讀慢點。不過前面沒完全看懂也沒關係,應該不會嚴重影響後面的理解。
先想一下:
1. 你有一枚硬幣,但懷疑硬幣好像不是公正的,所以你就問:這是公正硬幣嗎?
[你提出研究問題了。公正硬幣出現正面的機率是0.5。]
2. 我們一起做實驗:擲了10次,結果有9次出現正面,1次出現反面。
[抽樣本,得到一組數據。]
(怪怪的。好像真的很有可能不是公正的硬幣。怎麼判斷呢?
一個想法:如果這個硬幣是公正的,擲了10次,應該比較容易出現接近5~6次正面結果,而不容易出現"極端"的情形,當樣本越”極端”,我們越懷疑硬幣的公正性,最極端就是指 0次或10次正面這種情況,說他們”最極端”,因為他們應該出現的機率最小。但10次得10次或0次正面就夠極端嗎?就可以說硬幣不公正嗎?那出現>9次或<1次正面夠極端嗎?還是>8次或<2次就夠極端了呢??
有這個想法,要看夠不夠極端,我們就來算機率,因此要算"一個公正硬幣擲10次,得到10、9、8…0 次正面的機率"是多少。)
3. 接著開始假設檢定的步驟。記得:在前面的想法裡,我們是想要算"公正硬幣擲10次,得到10、9、8…、1、0的機率”。也就是我們是先”假設"”硬幣是公正的”才下去算機率。
[注意:所以這個機率值是在一個"假設"成立的情況下算的,這個假設叫「虛無假設」(常用代號H0),這裡的虛無假設是硬幣是公正的。]
4. 於是我們算出,當硬幣出現正面機率0.5時,擲10次得到X次正面的機率如下:
0 1 2 2 3 5 6 7 8 9 10
0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
上一列表示”出現正面的次數”,下面的數字是對應的機率。也就是得0次正面的機率是0.001,而能投出1次正面的機率和是0.01。以此類推。
上表我們發現,對公正硬幣,能投出最極端的10次或0次正面的機率和是0.002(=0.001+0.001)。
而能出現>=9或<=1次正面的機率和是0.022。
記得嗎?實驗結果我們得到了9次正面,9次和更極端的所有情形(就是>=9或<=1)機率和是0.022。
[這個機率值的名字就做p值(p-value),在這裡請先停一下,重新想一下這個例子裡p值是什麼意思,因為要把他用文字寫成最簡單的定義是一句很繞舌的話。]
5. 那你覺得下面兩種情形哪一種比較符合現況:
a. 虛無假設沒問題,0.022的機率也沒問題,是我們運氣好,所以0.022的機率被我們抽到了?
b. 我們運氣沒那麼好,0.022的機率有問題,0.022的機率是在虛無假設成立下得到的,所以虛無假設根本錯了?
[p值越小越傾向推翻虛無假設,也就是越傾向硬幣是不公正的]
上列的3~5就是假設檢定的過程,就是:
針對問題訂假設 -> 在假設下算樣本的機率-> 你覺得假設對嗎?
(如果可以,再回頭快速想一下整個看硬幣公不公正的過程。)
(如果可以,再回頭快速想一下整個看硬幣公不公正的過程。)
其他補充定義:
1. 另外有一個名詞叫「對立假設」(常用代號H1或Ha),在這裡是指"硬幣不公正",就是和虛無假設相完全對立的情況。
2.「p值」的繞舌定義是「在"虛無假設成立"時,出現"這組樣本及更極端樣本”的機率」
在前面的例子裡,虛無假設成立即是硬幣公正;這組樣本及更極端樣本是 <1或 >9
除非用符號表示,不然沒有別的精簡版本可以說明他了,就是因為他太繞舌了,所以他的意思常常被忘記或偷換概念。
接下來:換一個生活一點的例子做假設檢定:我們想研究藥有沒有效,先假設"藥沒有效”,去計算手中的樣本及更極端的機率。
假設這是減肥藥,收集樣本後,得到使用前後人們的"樣本平均體重少了5kg”的數據。接著就去算p值「如果藥真的沒有效,得到"平均體重減少5kg以上"這組樣本的機率」,跟硬幣的例子一樣,如果機率太小,就是極端樣本,我們就越傾向認為”藥沒有效”的假設是有問題的。
(不重要…但要體會這個機率值的大小可以稍微想一下:
這個p值是0.01代表:如果有錢有時間有辦法重複進行同樣的實驗100次,也就是重抽資料100次,可以得到100個平均體重差,在藥無效的假設成立下,大約會有1次實驗是”平均體重減少5kg以上”。
以此類推,如果這個機率值是0.05(1/20),那就是:藥真的無效時,20次重複實驗中大約會出現1次”平均體重減少5kg以上”的結果。)
假設檢定介紹完畢,結束。
====
本來到這邊就應該結束的,結果你問了一句:所以得到p值說機率是0.05藥到底有沒有效?
我:嗯…呃...你說呢??
你:嗯…有效? 沒效?
我囧 (OS: 饒了我吧~我跟這藥不熟呀! 那是專業去判斷的事呀! 為什麼一定要我用二分法回答呢?)
在這個疑問下,有些人訂一些標準來下結論:當p值小於一個門檻值,就叫「藥有效」,不同領域的門檻也不太一樣。(OS: 呃…隨便吧…你們是這個領域的專家呀,我已經把p-value的意思告訴你也計算給你了。)
這些標準的門檻值(0.05或0.01或0.001...大部份小於0.05) 有個名詞,叫「顯著水準」(常用代號alpha),到後來甚至把這種標準奉為規臬了。
(OS: 囧… 誤會好像越來越嚴重了?…可是”門檻值"是你決定的喔…)。
其實統計界會更傾向只報p值而不訂門檻,有不少人根本就想把這種標準和門檻給廢了。
接著大家就以為「統計說藥有效」、「民調(統計)說XXX會當選」。
統計表示:(驚!!!) 不!!!!這哪兒冒出來的?怎麼跳出這些話?我從來都沒說過這些事!真是冤死我了!(大哭)
如果有理解前面所說的假設檢定的過程,應該會明白:統計只有給你一個參考值(p值),甚至採用不同方法統計還能給你更多更多不同的參考值,幫助你去判斷「藥有沒有效」、「XXX當選」,但統計就是沒有說過「藥有效」、「XXX會當選」這些事。
會直接把這些當”統計"給的結論是一種讀報告的人自己腦補的結果,但這也不能怪大家,因為一般用來描述統計結果中有幾個其實是隱藏特殊定義的字眼,就直接被錯誤解讀了。
先來看研究報告一般怎麼描述結論:
當研究人員有其他的背景理論去支持”藥有效”,且做實驗得到p值夠小時,他可能在研究裡直接下”藥有效"的結論。這個結論是來自兩邊的:”背景理論知識(文獻探討)”和”資料統計上的參考值”得到的結果。因為統計用機率做底,能提供”背景理論以外”另一方面的證據,所以能做實驗問卷調查的大概都要收集資料用統計來"幫助”證明,其中假設檢定的p值是滿多人會採用的。
如果只說統計部份的結論的話,報告會用類似「藥有效在統計上達”顯著"」或「統計上”不顯著"」來說。應該有些人看過,因為負責一點的寫法,就算寫的人不十分明白原理也會把整句話抄下來。現在來幫大家翻譯這兩句話的意思:
「藥效統計上達顯著」或「用藥前後體重有顯著差異」:指p值夠小,小於研究人員訂的門檻,所以是「統計上有證據推翻藥無效的假設」
這句話寫改版變成「統計上有證據證明藥有效」。
另一種結論,「統計上”不”顯著」或「用藥前後體重"沒有"顯著差異」:指p值沒有小於研究人員訂的門檻值,樣本還不夠極端,所以是「統計上”沒有證據””推翻"藥是無效的假設」。
然後這句話就變成:「統計上”接受"藥無效的假設」 (咦?! 對嗎?偷換概念!!!) 這兩句話是不一樣的:沒有辦法推翻他不代表他是真的。這只是這個研究暫時採用”藥無效"的假設!!
然後這句話就變成:「統計上”接受"藥無效的假設」 (咦?! 對嗎?偷換概念!!!) 這兩句話是不一樣的:沒有辦法推翻他不代表他是真的。這只是這個研究暫時採用”藥無效"的假設!!
而且,考生注意!!!! 「統計上沒有證據推翻藥是無效的假設」vs 「統計上接受藥無效的假設」這兩句話是個考點,如果是選擇題出現這兩句話,統計老師沒有出錯題目,也不是在跟你玩文字遊戲,他是要知道你對假設檢定的概念有多了解。(而且他也知道:就算你選對了也不代表你了解,只代表”你有了解假設檢定的可能性”比較高。)
不知道看到這裡有人覺得:什麼?這麼辛苦收集資料分析,結果p值偏大,所以得到統計上的結果居然是「沒有證據推翻藥是無效的,而且還不保證藥真的無效」真是個沒用的結論!! (是的…而且這種事發生的還不少,要達顯著沒有那麼容易的,下一篇說說為什麼。)
雖然看起來對這一次的研究得了一個很沒用的結論,但已整個領域來看,經過長期的研究報告,當藥已經被研究很長一段時間也被探討好多次,結果大部份研究團隊做實驗收集資料都做出"統計上不顯著”的結果,那慢慢的就會認為藥沒有效而不再探討了。 即使得到看起來很好的”藥有效”的結論也是一樣的,只有一兩篇研究說”藥有效”是不夠的,還是要長時間探討的。
所以說,你是不是能更明白學術界要得到一個共識有多麼不容易?然後也不要因為新聞說一篇最新研究說XXXXXX就把他看得太認真。另外,這裡的藥有效當然只是個想讓人方便了解假設檢定過程的例子,不是研究藥就是這樣,特別是開發新藥、包含副作用什麼的,那有超多的事情要做,細節還是要問專門在做這個領域的。這邊只是想讓大家對非常被常使用的p值和假設檢定的過程有個大概的了解。
再複習一次:
假設檢定的過程:針對問題訂虛無假設 -> 在假設成立下計算p值 -> 以p值做參考你覺得假設對嗎?
「p值」的定義:「在"虛無假設成立"時,出現"這組樣本及更極端樣本”的機率」
再複習一次:
假設檢定的過程:針對問題訂虛無假設 -> 在假設成立下計算p值 -> 以p值做參考你覺得假設對嗎?
「p值」的定義:「在"虛無假設成立"時,出現"這組樣本及更極端樣本”的機率」
然後…因為p值的不易了解,和結果常常讓人不滿意(不顯著),後來就有了一些問題,而且隨著資料取得越來越容易,計算速度越來越快,問題就越來越嚴重,導致ASA要出來解釋p值是什麼,提醒大家不要再誤用他,不然就用別的替代方案。
(待續…寫了一堆,終於解決最難的部份了,應該不會有比這個更難的概念出現了。)
====統計的日常生活====
不知道有沒有人注意到…統計的世界和一般人內心的小世界主要的差別就是:
統計的世界是機率的世界,但人很喜歡二分法的世界而且是「非黑即白」的世界。
來個小劇場~~
人:統計統計,我懷疑霹靂貓是壞人,你覺得呢?
統計:你要怎麼定義好壞....我們先討論一下....
(經過了一段時間監視調查霹靂貓並分析。)
統計:根據你對好壞的定義,他平均一天中5%的時間做壞事,30%的時間做好事。如果要用假設檢定來看:虛無假設是他是好人,p值為0.1.
人:所以…他是好人。
統計:嗯…他平均一天中5%的時間做壞事,30%的時間做好事。
過兩天聽到霹靂貓酗酒鬧事的八卦…
人:你說錯了,他是壞人。
統計:呃....如過須要可以再做一次研究。不過我是說:他平均一天中5%的時間做壞事,30%的時間做好事。
再過幾天,聽朋友說霹靂貓常常從事公益活動
人:他其實是個好人嘛!
統計:嗯…他平均一天中5%的時間做壞事,30%的時間做好事。
再過幾天,看到霹靂貓在FB上大肆批評台灣。
人:他是壞人!統計果然都是騙人的!
統計:呃....(我沒說他是好人呀.... 還有....你可以不要再鬼打牆了嗎?)
(經過一翻思考後)
統計: 人呀……你知道機率嗎?
統計: 人呀……你知道機率嗎?
人:知道呀,氣象預報說今天降雨機率60%。我出門有帶傘。但是氣象預報常常都不準啦....
統計:........
========
統計觀念建立的第一篇:統計二三事~數字背後藏了什麼?
談尊重別的行業:統計二三事~假設檢定(2)電影12怒漢大審判
========
統計觀念建立的第一篇:統計二三事~數字背後藏了什麼?
談尊重別的行業:統計二三事~假設檢定(2)電影12怒漢大審判
文章標籤
全站熱搜