close
在有假設檢定的基本概念下,這一篇沒有難度 YA~   如果沒概念,建議先回第一篇
 
先複習一下假設檢定的過程:
針對問題訂虛無假設,然後計算虛無假設成立下抽到這組樣本的機率(p值),以p值做參考,看虛無假設成立嗎?
 
在上一篇已經了解,因為實務上常常須要一個"結論或決策" (藥到底有沒有效?要不要使用這個藥?),須要訂一個門檻值來幫助做結論
1.「統計上達顯著」表示p值小於門檻,「有足夠證據推翻藥無效的假設」。
2.「統計上不顯著」表示p值未小於門檻,「沒有足夠證據推翻藥是無效的」。
 
然而,要做結論或下決策時,守先要牢記在心的一件事是
「任何決策都有風險,都有可能發生誤判。」
 
就像準備過馬路的當下,“過馬路"是風險很高的行動,因為如果誤判(就是在不能過馬路時過)下場很慘;相對上”不過馬路"的誤判風險是較小的,頂多浪費點時間。這時候,"不能過馬路"會被當作一個不能輕易推翻的假設,只有當有足夠的證據能安全過馬路時,才會過馬路。我們會更保護虛無假設”不能過馬路",避免草率做出”過馬路"的決定。假設檢定的過程就是這樣的概念,一般會把”現狀"或"須要保護的"當做是虛無假設(例如:藥無效、A和B沒關聯),沒有足夠證據不會去隨便推翻現狀。
 
如果過馬路時可以做假設檢定的話:
虛無假設:不可過馬路 vs 對立假設:可過馬路
接著根據車速車型式距離做推測,我們可能採取的行動是”路邊等”或”過馬路”。
如果做了正確的決策,我們可以"很安全在一旁等”或"很順利過馬路"。
但也有可能做出錯誤的決策(誤判):
1.不可過馬路時過馬路 (這很危險,後果嚴重)  [型一誤判]
2.可過馬路而不過馬路 (浪費時間,小損失啦)  [型二誤判]
這兩個選擇發生誤判時的風險、成本、損失是不一樣的,兩種誤判裡,型一誤判是較嚴重而須要控制的。做決策時會控制型一誤判發生的機率必須在一個門檻以下,這個門檻就是前一篇講到的「顯著水準」。而在不同領域,誤判的風險程度可能不太一樣,能夠容許的型一誤判的機率不太一樣,但是一般顯著水準都會設在0.05以下,有的甚至到0.001以下。
 
專有名詞定義:
型一誤判 (Type I Error) :虛無假設為真時卻拒絕虛無假設 (亦即:錯誤拒絕虛無假設)。
型二誤判 (Type II Error):虛無假設為假時卻接受虛無假設 (亦即:錯誤接受虛無假設)。
有必要的話記較嚴重的型一誤判的意思就好了,另一種就是型二。
 
有一個統計學書上會出現做對照的例子,「法官判案」,也有著相似的原理。
虛無假設:被告無罪;對立假設:被告有罪
型一誤判:被告無罪但被判為有罪 (冤獄)
型二誤判:被告有罪但被判為無罪 (誤放有罪的人)

不管一般人怎麼想,法律是要保障人權的,法官所處的立場是”被告無罪”的,除非有夠強的證據,是不會輕易判一個人有罪的。也就是說:法官宣判無罪的意思是「證據不足以證明被告有罪」。我自己覺得:一個法官就算會心裡強烈懷疑某人有問題,但是只要照法律證據不足,還是不能隨便判有罪的,結果他們卻要被媒體和民眾冠上恐龍之名,我們真的希望看到法官被媒體和民意操作嗎?還有些人缺乏法學素養,就想著法官都是收賄,還有些人會有一些奇怪的想法:「如果你沒做壞事,為什麼不願被公開檢驗?」「如果你沒做壞事,為什麼....?」這類句型就是典型的"預設被告有罪"的立場的思考(一種思考陷阱,請小心),確實有些罪是被告須要自行舉證的,但是大部份都還是"無罪推定"。
 
我知道這跟一般人想法不一樣。非專業的人可以看了些消息,或一些人單方面的說法,或因為媒體報導和網路各種圖片證據,就認為某些人是壞人,那些沒有判他們刑的法官就是恐龍法官,隨便貼標籤。但我就是忍不住想說:不要人云亦云,隨便說人家是恐龍法官。

在專業的立場,都是講究證據力的,沒有確實的證據,還是不能判有罪或說藥效顯著。專業上要考慮證據力的強弱,遠比一般人想得多的多。像前一篇提的減肥藥有沒有效的檢定,其實那在藥有沒有效的判斷上就是個有問題的作法。一般人可以吃個藥覺得自己有瘦了幾公斤,就跟人家說,我吃了有效耶。但是在研究藥有沒有效的實驗裡,只依靠"吃藥的人平均體重減5kg"來檢定蘗效是不夠的,還要看"和服用安慰劑的另一群人比,平均體重有沒有減足夠多"。如果另一群服用安慰劑的人"平均體重就減了3kg",藥真的有效嗎?或只能歸類為心理作用而已?
 
如果有些人會想說:「明明都有這麼多人這麼說那麼說了,證據確鑿,絕對有罪啦」有這種未審先判的想法,有一部電影請一定要找來看:「12怒漢」。希望看完以後你會覺得,”證據確鑿"什麼的還是很難說的,冤獄之類的說不定很多。這故事就講一個陪審團在討論一件子弒父的謀殺案,很經典的討論過程,其他就不透露了,有機會直接找來看吧,非常有意思的電影。這部電影至少有四個國家的版本,除了日版的我都看了:
1  美國(1957):12怒漢。
2  日本(1991):12個溫柔的日本人 。
3  俄國(2007):12怒漢:大審判。
4  大陸(2014):十二公民。
每個版都有融入各國家的問題和文化。美版(1957)被譽為影史上最偉大的法庭片、辯證推理片,絕對是值得看的。大陸的接近美版的精神,加了些地方文化元素。俄版比較特別,精神已經和美版不一樣了,更哲學一點,文化因素會不好懂,但我很喜歡俄版的結局。
 
我們都有自己的專業。不是只有科學界的才叫專業,投入心力的工作領域就是一門專業了,各行各業都是一種專業,包含家庭主婦。當自己的專業受到質疑的時候,誰不生氣?不懂行情的人給你亂砍價,生不生氣?有人說媽媽帶小孩做做家務事有什麼好累的,生不生氣?
 
好奇怪,自己的專業被侵犯的時候氣得要死,一回頭就對別人的專業指手劃腳?為什麼我們不尊重專業?
 
我不否認每個專業都有老鼠屎,但是如果因為他們,就在心裡把一群人隨便貼標籤判刑,會不會讓情況變糟:反正不管有沒有規矩做生意了,大家都覺得我們賺太多錢沒良心,就來亂砍價,我日子都過不下了,是不是只能想辦法降低成本,用一些次等的原料?
 
以後如果身邊有人有隨便批評別的專業、隨便給人貼標籤,是不是可以稍微跟他提醒一下,不要讓這種情況在台灣惡化下去了。畢竟,當我們隨便質疑別人的專業的時候,是不是暗示別人也可以隨便傷害我們自己的專業?
 
法官的糾結我是有感觸的,所以才有這一篇。以前做分析偶爾也會遇到這種困擾:研究結果的p值就在那裡,跟門檻值就差那麼一點點,研究人員好糾結好希望讓我們弄出個顯著的結果。理論上我也覺得差那一點點門檻值也不是那麼重要,畢竟假設檢定是很保護虛無假設的,研究還是有一個結果的,只是結果不如”預期”的好。但要用該領域的標準門檻二分法,不顯著就是不顯著呀!
 
後來,有些研究人員急切想要達到顯著結果的心態,就像一般人急著把人判刑一樣,再碰上電腦計算速度越來越快, 就鑽了些過程上的瑕疵,所謂的”摘櫻桃”就是一種誤用的現象。
 
(待續)
 
====統計的日常生活====
統計的世界是機率的世界,並知道做決策的時候,有一定的機率會誤判,任何決策都伴隨風險。
人的世界是非黑即白的世界,輕易的上了顏色又不肯改掉,字典裡沒有”誤判”、”風險"。
 
來個小劇場:
(恐龍新聞播爆X油案法院宣判結果。)
人:哇!!!那個X油案鬧好大,那群人太壞了,都該下地獄。
統計:不知道,對油沒有研究,不予置評。
人:喂…統計,你說那個判他們無罪的法官是不是很過份?
統計:等我收集資料了解一下情況。
人:台灣怎麼都養這種恐龍法官呀,太過份了。
統計:怎麼扯到別的法官了?我現在只針對這件事做資料收集,如果要把台灣的法官當全部感興趣的對象,要另外研究喔!!
(過一段時間)
統計:在X油案裡,沒有充份證據證明是恐龍法官。
人:(愣) 什麼?所以不是恐龍法官?那群人真的無罪?
統計:有些資料顯示........
人:(怒) 哼! 這一定是哪來的妖言惑眾。那是恐龍法官。
統計:(不是新聞是最妖言惑眾的嗎) 嗯,抱歉,我還以為恐龍法官是指不守法律和司法程序、故意釋放有罪的人的法官。現在重新定義「恐龍法官」是指做出了違背"媒體和民意”的法官。是的,那是恐龍法官。
人:(惱羞成怒) 你是恐龍統計!
統計:…… (重新定義也不行,想跟你達成共識,我容易嗎我?)
========
arrow
arrow
    創作者介紹
    創作者 霹靂貓 的頭像
    霹靂貓

    生活統計二三事

    霹靂貓 發表在 痞客邦 留言(0) 人氣()