所謂的"量化"研究有多重要?其實就跟考試有多重要差不多。
考試這個東西,就是統計上的一種量化、量測方法。學習情況、學習能力這些東西是抽象的,沒有工具量測,所以我們用"考試"來幫助了解小孩子的學習情況,例如針對數學能力,得到的數學成績,就是小孩子的數學能力的量化。而一般研究比較抽象議題的時候,我們靠問卷,問卷的作用跟考卷是差不多的。這種量化值可以用來幫助個體了解自己的狀況,也可以幫助研究者了解整個群體的情況。

 

但真正在做量化研究時,題目設計非常重要,要能夠問出研究者所關心的事。一般新設計的問卷是要先測試的,就是設計完要試用看看,題目清不清楚?會不會有”誘導”答案的現象?有沒有辦法真的量到我們所關心的問題?填問卷的人有沒有亂答?......總之,把抽象概念定義清楚到量化的過程也是一門學問,問卷設計和實驗設計都很重要。

 

然後我們就想到,考卷也是一樣的道理。只是一般學校的考卷很單純,因為他限縮在一個”考試範圍”內,來評量學生”這一段時間"的學習成果,並不完全代表”能力”。而要了解成績分數到底有多高的參考價值,細著看,要去看考卷的問題才知道,畢竟不同學校不同老師有時候有不一樣的出題重點和風格。如果不細究,有些很具規模有公信力的考試,是非常費心去設計出來的而且能測出”能力”,至少像”托福"這種考試,我覺得它確實有一定衝量英文能力的作用。(不過托福是注重學術英文的量測上,其他考試檢定我沒接觸過就不提了,相信有不少有公信力的。)

 

所以成績分數,你可以說它很重要,因為他是一個參考值,也可以說它不重要,因為他就是個參考值。統計數字就是這樣的,像之前提的假設檢定的p值(1)概念,它就是個參考值,不必要過度看重或追求,但也不能輕視它暗藏的訊息。

 

看到這類的參考值,重點是:我們有沒有辦法"讀到"這個值背後的意思,而不是神化它或是貶低它。
要了解分數背後的意思,有時候必須去看問卷問了什麼問題,考卷問了什麼問題,到底有沒有真正的”量測”到”你以為"的那個”數學能力”、”英文能力”、”滿意度”、”幸福指數”,很多時候研究者或出題者定義的目標和用來量測的問題,或是一些實驗設計的方式,可能和你想的不太一樣。



 

如果我們也這樣去討論教改的成敗,確實會發現有個問題使教改從"一開始"就被媒體或是大多數人判定為"失敗"。那個問題就是:
教改的「失敗」和「成功」到底是怎麼定義、怎麼衡量的?
理論上,教改的失敗和成功是要依照教改及教育的「目標」下去判斷的,而且要有適當的量測方法去評價。

 

霹靂貓 發表在 痞客邦 留言(0) 人氣()




我們討厭教改。



 

我們心裡有一個很特別的評價系統:凡事跟教育教改扯上關係的,都是教改的錯。只要看到現在小孩如何不懂事、學生做了幾十年前的學生不能做的事、年輕人如何沒常識,最後就忍不住就要來一句,一代不如一代,都是教育的錯,都是教改的錯。

 



「教改失敗了」嗎?教育有問題真的是因為教改嗎?


 
教育一直是一個問題很大,但是我不是教育專業的,而且我還真的沒研究過教改改了哪些東西,課本內容改了什麼,老師的培訓是怎樣的...所以對於教改我還真不好開口說什麼。真的要研究教改,還是找那些教育專業的討論文章吧!有涉入教育界的朋友們,在方面應該能有更多能做的事。
 
而我呢…也改不了什麼教育政策,制定不出什麼偉大的計畫,所以討論這個問題,完全就只能”一般人”視角。只有用一般人立場,我們才能想想我們能做什麼……
 

一般人視角的話,第二個問題”教育有問題真的是因為教改嗎?” 才是個值得想的問題了。在我這裡會覺得:教改對教育的影響遠不如想象的大。會有教改,就是教育已經先出現問題了,就算沒有教改,我也不覺得台灣的教育問題會比現在少。是的,不會好多少的,因為很多問題在我小時候就已經浮出來了,所以才要教改。

 

我不知道別人怎麼樣,但對我而言,學校做到的是補充各種”一般長大後須要的知識”,但是各種思考模式觀念卻是來自身邊的大人們和朋友們。也就是說,學校給的知識,是幫助我以後對某一類問題有興趣時,能有一個基礎的認知,讓我能自我學習的工具,但各種思考和面對問題的方式和態度,是身邊的”人"給我的。特別是大人們是直接表現出來的,我指的不是”口說”而已,而是一種對事情的行為和反應。就像”活到老學到老”這句話,人人都會偶爾感嘆的時候說一下,但是真正”活到老學到老”的人是不多的。(可以查一下”趙慕鶴”老先生,我覺得他真的是「活到老學到老」的代表人物。)

 

在小時候,身邊的人們中父母是絕對的權威,學校老師示範再好,回家被父母一口否定,或是一個行為暗示,大概就毀了一大半了!

"到學校玩到補習班認真上課”是什麼樣的心態養出來的?
“學習知識"一定要人教嗎?有人能好好教好好引導是幸運,但自己練習學習不是最重要的嗎?
學習新東西應該是快樂的事,那“不喜歡念書”的心態又是怎麼養出來的?
"小孩子只要讀書就好,其他什麼都別管”的心態沒問題嗎?做為家庭的一份子,這不是一種不負責任的想法在灌輸嗎?
學了一堆英文外文,學英文的年紀越來越小,我們真的用英文來幫助認識世界嗎?
(真心覺得不要浪費錢了,省下來全家出去走走多好 XD)
拚命找人教小孩,結果大人們只顧工作,在很多知識上沒有學習長進……這就是社會上的大人們給小孩的身教嗎?
上一代把自己的希望托給下一代,但是又一直覺得一代不如一代?一代真的有不如一代嗎?” 把自己的希望托給下一代”是我們要學的嗎?
......
 
想到這裡,我就常常覺得教改是被拿來當不負責任的大人們的擋箭牌而已,好像說的都是教改的問題、都是學校的錯之後,就沒有自己的事了。這是不是是一種推卸責任的示範? 特別是很愛隨便影響視聽的媒體,明明埋下各種不良示範的種子,卻又愛說”教改”毀了台灣的教育……


 



學校教育本來就是個很好的輔助,父母沒辦法教小孩的知識,學校去教。家庭教育難免有些問題,有學校有輔導室給小孩子另一個管道,相輔相成。但是如果大家忘了學校教育輔助的立場,把教育問題推給學校.......


 


真的不用這麼瞧得起教改,而小看了父母和社會的威力,其實就是每個人的威力~~~

 

========
"教改失敗了嗎?"這個問題,從統計上真的是有一點可以說的。為什麼常常覺得新政策都是有問題的?
請看:統計二三事~目標和量測。教改失敗了嗎?新政策都是有問題的? 

霹靂貓 發表在 痞客邦 留言(0) 人氣()


我們喜歡效率。

 
我們心裡有一個很特別的評價系統:凡事都是效率越高越好,時間越短越好。

霹靂貓 發表在 痞客邦 留言(0) 人氣()







問:異國長期生活,改變了你的哪些”是非觀”?
這個問題來自知乎48問裡,裡面給了一個我很喜歡的答案 (至少我想不到這麼好的答案)。

答:很多事情只有不同,並無是非。

 

這個答案我有很深的感受。我覺得要討論是非對錯、公平、道德、正義是件麻煩的事,因為在不同的條件和每個人不同的立場,我有不同的答案,沒辦法分門別類整理出大方向,而且是須要一件一件看,而且每個人要找自己的那把尺。如果真的很想探討「是非、公平、道德、正義」這類的問題,先推薦「正義:一場思辨之旅」,然後你可能會發現,當”立場"不一樣的時候,想法做法都不太一樣了。先說之前上課發生的抖腳故事當例子吧!




 

我們被教育的是抖腳是不好的,「男抖窮女抖賤」,所以不太遇到抖腳的人。剛到美國的時候有點不習慣,上課的時候有些同學有時候會抖幾下,看著很礙眼,直接就分心了,雖然知道是文化差異,但就覺得很煩,剛開始還真想去把那腳按住…...後來有一天上課,瞄到旁邊一排男生5~6位男生,不分國藉種族在抖腳(中美俄印),我突然只想大笑。 ( 是上課上到太無聊嗎XDDD ) 從此以後,看到人家抖腳我就想到這一幕,不生氣了,只想笑……



 

其實抖腳好像真的還能提振精神、促進血液循環什麼的,搭飛機搭久了腳也真的很想多晃兩下。不是說鼓勵大家抖腳,只是對於別人抖腳這件事能更放寬心,畢竟抖腳這件事本無是非。偏偏在傳統的觀念裡,這成是大非,直接就覺得會抖腳的人沒教養、排斥沒教養的人........ 何必呢?

 


而且我現在還很好奇一個問題:

就算抖腳真的會造成人分心,真的有影響這麼大嗎?是不是因為我們被教育「抖腳」是不好的,所以一看到有人抖腳就更容易覺得生氣也更容易分心?如果我們生在沒有這種價值觀的社會裡,會不會有時看到有人抖腳也習以為常,反應就不是這麼大了?而且抖腳有時候是生病了,我們社會不願意包容這樣的人存在嗎?從這個例子開始,希望能稍微讓人重新想想那些被灌輸的是非對錯,真的有這麼嚴重嗎?超過法律的那些道德標準,可以拿來自律,但要拿來評價別人的嗎?隨意評價別人好像就是一件不太道德的行為。

 


就像下圖,爭執這是6或是9有意思嗎,或是他其實是個?還不如想個法子避免出現這種誤會發生。
(上排文字:只因為你是對的不代表我是錯的)





16836147_1948793305449444_5697133560032667075_o.jpg



(下排文字:你只是還沒有從我的角度看到人世的樣子。)

 

以一個人的立場,要換去另一個立場看問題是很困難的。但是透過討論交流,可以讓我們知道從不一樣的角度來看事情會變成怎樣。我們可以有很多不一樣的想法,而且無所謂對錯的。溝通交流的其中一個要點是要有個共識:「我們不是對立的,我們雖然站在不同的立場,但是是要互相幫忙來解決對方的問題,盡量追求雙贏的局面。」如果一直太強調自己的立場,太在意對錯的問題,或害怕說錯話做錯事,結果心中有標準有自律的人都不說話了,讓那些沒什麼標準或不怎麼自律的人在外面大聲說話,混亂視聽,這樣對我們真的好嗎?



 

又想到瞎子摸象的故事了 (第8篇),在大象真理面前,我們都是睜眼瞎,但因為我們站在不同的位子,所以有不同的立場用不同的方式描述,但都是在描述大象。只有用一個角度碰觸到的,都不是完整的大象,不是嗎?在這個時候,我特別覺得「真理越辯越明」這句話是有道理的,這裡的真理並不是侷限在真相和是非而已,不是吵架大聲的贏,也不是看起來有理有據的對,而是透過這種越多人從不同角度討論的過程,才可以稍微窺探出,世界、人、真理的輪廓,就像我現在覺得「很多事情只有不同並無是非」就是真理的輪廓之一。

 


PS 只有抖腳的例子好像還不夠,試著開一個系列主題「台灣特有評價系統」,看看哪些我們以為的絕對正確或錯誤的想法,未必總是對的,甚至已經產生了傷害(過猶不及),引入些和台灣人習慣認知不同但也不錯的想法進來,希望以後能看到更多不同的點切入。我們應該試著有更多不同的思考方式來看問題,而不是只停留在批評是非對錯的階段(說白了就是把責任推在一個人或一小群人的身上),沒有從問題的根本上下去思考解決和預防的方法,一直把這些問題留給未來的我們,在未來的人生裡還不斷遇到同樣的問題,同樣的吵鬧同樣的不開心,這不是太浪費生命了嗎?



霹靂貓 發表在 痞客邦 留言(0) 人氣()



在有假設檢定的基本概念下,這一篇沒有難度 YA~   如果沒概念,建議先回第一篇
 

先複習一下假設檢定的過程:

針對問題訂虛無假設,然後計算虛無假設成立下抽到這組樣本的機率(p值),以p值做參考,看虛無假設成立嗎?

 

在上一篇已經了解,因為實務上常常須要一個"結論或決策" (藥到底有沒有效?要不要使用這個藥?),須要訂一個門檻值來幫助做結論

1.「統計上達顯著」表示p值小於門檻,「有足夠證據推翻藥無效的假設」。

2.「統計上不顯著」表示p值未小於門檻,「沒有足夠證據推翻藥是無效的」。

 

然而,要做結論或下決策時,守先要牢記在心的一件事是
「任何決策都有風險,都有可能發生誤判。」

 

就像準備過馬路的當下,“過馬路"是風險很高的行動,因為如果誤判(就是在不能過馬路時過)下場很慘;相對上”不過馬路"的誤判風險是較小的,頂多浪費點時間。這時候,"不能過馬路"會被當作一個不能輕易推翻的假設,只有當有足夠的證據能安全過馬路時,才會過馬路。我們會更保護虛無假設”不能過馬路",避免草率做出”過馬路"的決定。假設檢定的過程就是這樣的概念,一般會把”現狀"或"須要保護的"當做是虛無假設(例如:藥無效、A和B沒關聯),沒有足夠證據不會去隨便推翻現狀。

 

如果過馬路時可以做假設檢定的話:

虛無假設:不可過馬路 vs 對立假設:可過馬路

接著根據車速車型式距離做推測,我們可能採取的行動是”路邊等”或”過馬路”。

如果做了正確的決策,我們可以"很安全在一旁等”或"很順利過馬路"。

但也有可能做出錯誤的決策(誤判):

1.不可過馬路時過馬路 (這很危險,後果嚴重)  [型一誤判]

2.可過馬路而不過馬路 (浪費時間,小損失啦)  [型二誤判]

這兩個選擇發生誤判時的風險、成本、損失是不一樣的,兩種誤判裡,型一誤判是較嚴重而須要控制的。做決策時會控制型一誤判發生的機率必須在一個門檻以下,這個門檻就是前一篇講到的「顯著水準」。而在不同領域,誤判的風險程度可能不太一樣,能夠容許的型一誤判的機率不太一樣,但是一般顯著水準都會設在0.05以下,有的甚至到0.001以下。

 



專有名詞定義:

型一誤判 (Type I Error) :虛無假設為真時卻拒絕虛無假設 (亦即:錯誤拒絕虛無假設)。

型二誤判 (Type II Error):虛無假設為假時卻接受虛無假設 (亦即:錯誤接受虛無假設)。
有必要的話記較嚴重的型一誤判的意思就好了,另一種就是型二。

 




有一個統計學書上會出現做對照的例子,「法官判案」,也有著相似的原理。


虛無假設:被告無罪;對立假設:被告有罪

型一誤判:被告無罪但被判為有罪 (冤獄)


型二誤判:被告有罪但被判為無罪 (誤放有罪的人)


不管一般人怎麼想,法律是要保障人權的,法官所處的立場是”被告無罪”的,除非有夠強的證據,是不會輕易判一個人有罪的。也就是說:法官宣判無罪的意思是「證據不足以證明被告有罪」。我自己覺得:一個法官就算會心裡強烈懷疑某人有問題,但是只要照法律證據不足,還是不能隨便判有罪的,結果他們卻要被媒體和民眾冠上恐龍之名,我們真的希望看到法官被媒體和民意操作嗎?還有些人缺乏法學素養,就想著法官都是收賄,還有些人會有一些奇怪的想法:「如果你沒做壞事,為什麼不願被公開檢驗?」「如果你沒做壞事,為什麼....?」這類句型就是典型的"預設被告有罪"的立場的思考(一種思考陷阱,請小心),確實有些罪是被告須要自行舉證的,但是大部份都還是"無罪推定"。


 

我知道這跟一般人想法不一樣。非專業的人可以看了些消息,或一些人單方面的說法,或因為媒體報導和網路各種圖片證據,就認為某些人是壞人,那些沒有判他們刑的法官就是恐龍法官,隨便貼標籤。但我就是忍不住想說:不要人云亦云,隨便說人家是恐龍法官。
在專業的立場,都是講究證據力的,沒有確實的證據,還是不能判有罪或說藥效顯著。專業上要考慮證據力的強弱,遠比一般人想得多的多。像前一篇提的減肥藥有沒有效的檢定,其實那在藥有沒有效的判斷上就是個有問題的作法。一般人可以吃個藥覺得自己有瘦了幾公斤,就跟人家說,我吃了有效耶。但是在研究藥有沒有效的實驗裡,只依靠"吃藥的人平均體重減5kg"來檢定蘗效是不夠的,還要看"和服用安慰劑的另一群人比,平均體重有沒有減足夠多"。如果另一群服用安慰劑的人"平均體重就減了3kg",藥真的有效嗎?或只能歸類為心理作用而已?

 

如果有些人會想說:「明明都有這麼多人這麼說那麼說了,證據確鑿,絕對有罪啦」有這種未審先判的想法,有一部電影請一定要找來看:「12怒漢」。希望看完以後你會覺得,”證據確鑿"什麼的還是很難說的,冤獄之類的說不定很多。這故事就講一個陪審團在討論一件子弒父的謀殺案,很經典的討論過程,其他就不透露了,有機會直接找來看吧,非常有意思的電影。這部電影至少有四個國家的版本,除了日版的我都看了:

1  美國(1957):12怒漢。

2  日本(1991):12個溫柔的日本人 。

3  俄國(2007):12怒漢:大審判。

4  大陸(2014):十二公民。

每個版都有融入各國家的問題和文化。美版(1957)被譽為影史上最偉大的法庭片、辯證推理片,絕對是值得看的。大陸的接近美版的精神,加了些地方文化元素。俄版比較特別,精神已經和美版不一樣了,更哲學一點,文化因素會不好懂,但我很喜歡俄版的結局。

 

我們都有自己的專業。不是只有科學界的才叫專業,投入心力的工作領域就是一門專業了,各行各業都是一種專業,包含家庭主婦。當自己的專業受到質疑的時候,誰不生氣?不懂行情的人給你亂砍價,生不生氣?有人說媽媽帶小孩做做家務事有什麼好累的,生不生氣?

 

好奇怪,自己的專業被侵犯的時候氣得要死,一回頭就對別人的專業指手劃腳?為什麼我們不尊重專業?

 

我不否認每個專業都有老鼠屎,但是如果因為他們,就在心裡把一群人隨便貼標籤判刑,會不會讓情況變糟:反正不管有沒有規矩做生意了,大家都覺得我們賺太多錢沒良心,就來亂砍價,我日子都過不下了,是不是只能想辦法降低成本,用一些次等的原料?

 

以後如果身邊有人有隨便批評別的專業、隨便給人貼標籤,是不是可以稍微跟他提醒一下,不要讓這種情況在台灣惡化下去了。畢竟,當我們隨便質疑別人的專業的時候,是不是暗示別人也可以隨便傷害我們自己的專業?



 


法官的糾結我是有感觸的,所以才有這一篇。以前做分析偶爾也會遇到這種困擾:研究結果的p值就在那裡,跟門檻值就差那麼一點點,研究人員好糾結好希望讓我們弄出個顯著的結果。理論上我也覺得差那一點點門檻值也不是那麼重要,畢竟假設檢定是很保護虛無假設的,研究還是有一個結果的,只是結果不如”預期”的好。但要用該領域的標準門檻二分法,不顯著就是不顯著呀!

 

後來,有些研究人員急切想要達到顯著結果的心態,就像一般人急著把人判刑一樣,再碰上電腦計算速度越來越快, 就鑽了些過程上的瑕疵,所謂的”摘櫻桃”就是一種誤用的現象。



 


(待續)

 


====統計的日常生活====

統計的世界是機率的世界,並知道做決策的時候,有一定的機率會誤判,任何決策都伴隨風險。

人的世界是非黑即白的世界,輕易的上了顏色又不肯改掉,字典裡沒有”誤判”、”風險"。


 


來個小劇場:

(恐龍新聞播爆X油案法院宣判結果。)

人:哇!!!那個X油案鬧好大,那群人太壞了,都該下地獄。

統計:不知道,對油沒有研究,不予置評。

人:喂…統計,你說那個判他們無罪的法官是不是很過份?

統計:等我收集資料了解一下情況。

人:台灣怎麼都養這種恐龍法官呀,太過份了。

統計:怎麼扯到別的法官了?我現在只針對這件事做資料收集,如果要把台灣的法官當全部感興趣的對象,要另外研究喔!!

(過一段時間)

統計:在X油案裡,沒有充份證據證明是恐龍法官。

人:(愣) 什麼?所以不是恐龍法官?那群人真的無罪?

統計:有些資料顯示........

人:(怒) 哼! 這一定是哪來的妖言惑眾。那是恐龍法官。

統計:(不是新聞是最妖言惑眾的嗎) 嗯,抱歉,我還以為恐龍法官是指不守法律和司法程序、故意釋放有罪的人的法官。現在重新定義「恐龍法官」是指做出了違背"媒體和民意”的法官。是的,那是恐龍法官。

人:(惱羞成怒) 你是恐龍統計!

統計:…… (重新定義也不行,想跟你達成共識,我容易嗎我?)
========

霹靂貓 發表在 痞客邦 留言(0) 人氣()


起因是去年美國統計學會(ASA)因為某統計方法被濫用的太嚴重了,所以發了些聲明。
有幾篇文章在介紹,但對沒念過統計的人有點深,但都有幾個很重要的點,我嘗試用白話一點的方式講,希望減少大家對統計的錯誤印象。統計出錯騙人的,大多都是解讀的過程產生的誤會,或是因為”人”沒有按照一定規則進行分析。在說這些問題前,有些必須先介紹的。

 

統計二三事(1)~這裡簡單說明基本的概念~寫給沒學過統計的人看的~

 

這個被濫用的方法叫”假設檢定”,裡面最被誤解的叫”p值”。這個東西對沒有統計概念的人不是看一次能完全懂的(其實是用文字介紹不好懂=_= ),但是因為他真的太太太常被使用了,像是看藥有沒有效、某某肥料會不會增加產量.....之類的問題,統計上最基本的方法就是靠假設檢定提供參考,所以可以的話請試著想一下了解它。


 


前面介紹”假設檢定”的部份可能要讀慢點。不過前面沒完全看懂也沒關係,應該不會嚴重影響後面的理解。

 


先想一下:


 

1. 你有一枚硬幣,但懷疑硬幣好像不是公正的,所以你就問:這是公正硬幣嗎?
[你提出研究問題了。公正硬幣出現正面的機率是0.5。]
 
2. 我們一起做實驗:擲了10次,結果有9次出現正面,1次出現反面。
[抽樣本,得到一組數據。]
 
(怪怪的。好像真的很有可能不是公正的硬幣。怎麼判斷呢?
一個想法:如果這個硬幣是公正的,擲了10次,應該比較容易出現接近5~6次正面結果,而不容易出現"極端"的情形,當樣本越”極端”,我們越懷疑硬幣的公正性,最極端就是指 0次或10次正面這種情況,說他們”最極端”,因為他們應該出現的機率最小。但10次得10次或0次正面就夠極端嗎?就可以說硬幣不公正嗎?那出現>9次或<1次正面夠極端嗎?還是>8次或<2次就夠極端了呢??
有這個想法,要看夠不夠極端,我們就來算機率,因此要算"一個公正硬幣擲10次,得到10、9、8…0 次正面的機率"是多少。)
 
3. 接著開始假設檢定的步驟。記得:在前面的想法裡,我們是想要算"公正硬幣擲10次,得到10、9、8…、1、0的機率”。也就是我們是先”假設"”硬幣是公正的”才下去算機率。
[注意:所以這個機率值是在一個"假設"成立的情況下算的,這個假設叫「虛無假設」(常用代號H0),這裡的虛無假設是硬幣是公正的。]
 
4. 於是我們算出,當硬幣出現正面機率0.5時,擲10次得到X次正面的機率如下:
0     1     2     2     3     5     6     7     8     9     10

0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
上一列表示”出現正面的次數”,下面的數字是對應的機率。也就是得0次正面的機率是0.001,而能投出1次正面的機率和是0.01。以此類推。
 
上表我們發現,對公正硬幣,能投出最極端的10次或0次正面的機率和是0.002(=0.001+0.001)。
而能出現>=9或<=1次正面的機率和是0.022。
 
記得嗎?實驗結果我們得到了9次正面,9次和更極端的所有情形(就是>=9或<=1)機率和是0.022。
[這個機率值的名字就做p值(p-value),在這裡請先停一下,重新想一下這個例子裡p值是什麼意思,因為要把他用文字寫成最簡單的定義是一句很繞舌的話。]
 
5. 那你覺得下面兩種情形哪一種比較符合現況:
a. 虛無假設沒問題,0.022的機率也沒問題,是我們運氣好,所以0.022的機率被我們抽到了?
b. 我們運氣沒那麼好,0.022的機率有問題,0.022的機率是在虛無假設成立下得到的,所以虛無假設根本錯了?
[p值越小越傾向推翻虛無假設,也就是越傾向硬幣是不公正的]
 
上列的3~5就是假設檢定的過程,就是:
針對問題訂假設 -> 在假設下算樣本的機率-> 你覺得假設對嗎?
(如果可以,再回頭快速想一下整個看硬幣公不公正的過程。)

 
其他補充定義:
1. 另外有一個名詞叫「對立假設」(常用代號H1或Ha),在這裡是指"硬幣不公正",就是和虛無假設相完全對立的情況。
 
2.「p值」的繞舌定義是「在"虛無假設成立"時,出現"這組樣本及更極端樣本”的機率」
在前面的例子裡,虛無假設成立即是硬幣公正;這組樣本及更極端樣本是 <1或 >9
除非用符號表示,不然沒有別的精簡版本可以說明他了,就是因為他太繞舌了,所以他的意思常常被忘記或偷換概念。
 
 
接下來:換一個生活一點的例子做假設檢定:我們想研究藥有沒有效,先假設"藥沒有效”,去計算手中的樣本及更極端的機率。
 
假設這是減肥藥,收集樣本後,得到使用前後人們的"樣本平均體重少了5kg”的數據。接著就去算p值「如果藥真的沒有效,得到"平均體重減少5kg以上"這組樣本的機率」,跟硬幣的例子一樣,如果機率太小,就是極端樣本,我們就越傾向認為”藥沒有效”的假設是有問題的。
 
(不重要…但要體會這個機率值的大小可以稍微想一下:
這個p值是0.01代表:如果有錢有時間有辦法重複進行同樣的實驗100次,也就是重抽資料100次,可以得到100個平均體重差,在藥無效的假設成立下,大約會有1次實驗是”平均體重減少5kg以上”。
以此類推,如果這個機率值是0.05(1/20),那就是:藥真的無效時,20次重複實驗中大約會出現1次”平均體重減少5kg以上”的結果。)
 
假設檢定介紹完畢,結束。
====
 
本來到這邊就應該結束的,結果你問了一句:所以得到p值說機率是0.05藥到底有沒有效?

我:嗯…呃...你說呢??

你:嗯…有效? 沒效?

我囧 (OS: 饒了我吧~我跟這藥不熟呀! 那是專業去判斷的事呀! 為什麼一定要我用二分法回答呢?)

 

在這個疑問下,有些人訂一些標準來下結論:當p值小於一個門檻值,就叫「藥有效」,不同領域的門檻也不太一樣。(OS: 呃…隨便吧…你們是這個領域的專家呀,我已經把p-value的意思告訴你也計算給你了。)

這些標準的門檻值(0.05或0.01或0.001...大部份小於0.05) 有個名詞,叫「顯著水準」(常用代號alpha),到後來甚至把這種標準奉為規臬了。

(OS: 囧… 誤會好像越來越嚴重了?…可是”門檻值"是你決定的喔…)。 

 

其實統計界會更傾向只報p值而不訂門檻,有不少人根本就想把這種標準和門檻給廢了。

 

接著大家就以為「統計說藥有效」、「民調(統計)說XXX會當選」。

統計表示:(驚!!!) 不!!!!這哪兒冒出來的?怎麼跳出這些話?我從來都沒說過這些事!真是冤死我了!(大哭)

 

如果有理解前面所說的假設檢定的過程,應該會明白:統計只有給你一個參考值(p值),甚至採用不同方法統計還能給你更多更多不同的參考值,幫助你去判斷「藥有沒有效」、「XXX當選」,但統計就是沒有說過「藥有效」、「XXX會當選」這些事。

 

會直接把這些當”統計"給的結論是一種讀報告的人自己腦補的結果,但這也不能怪大家,因為一般用來描述統計結果中有幾個其實是隱藏特殊定義的字眼,就直接被錯誤解讀了。

 

先來看研究報告一般怎麼描述結論:

當研究人員有其他的背景理論去支持”藥有效”,且做實驗得到p值夠小時,他可能在研究裡直接下”藥有效"的結論。這個結論是來自兩邊的:”背景理論知識(文獻探討)”和”資料統計上的參考值”得到的結果。因為統計用機率做底,能提供”背景理論以外”另一方面的證據,所以能做實驗問卷調查的大概都要收集資料用統計來"幫助”證明,其中假設檢定的p值是滿多人會採用的。

 

如果只說統計部份的結論的話,報告會用類似「藥有效在統計上達”顯著"」或「統計上”不顯著"」來說。應該有些人看過,因為負責一點的寫法,就算寫的人不十分明白原理也會把整句話抄下來。現在來幫大家翻譯這兩句話的意思:

 

「藥效統計上達顯著」或「用藥前後體重有顯著差異」:指p值夠小,小於研究人員訂的門檻,所以是「統計上有證據推翻藥無效的假設」

這句話寫改版變成「統計上有證據證明藥有效」。

 

另一種結論,「統計上”不”顯著」或「用藥前後體重"沒有"顯著差異」:指p值沒有小於研究人員訂的門檻值,樣本還不夠極端,所以是「統計上”沒有證據””推翻"藥是無效的假設」。
然後這句話就變成:「統計上”接受"藥無效的假設」 (咦?! 對嗎?偷換概念!!!) 這兩句話是不一樣的:沒有辦法推翻他不代表他是真的。這只是這個研究暫時採用”藥無效"的假設!!

 

而且,考生注意!!!! 「統計上沒有證據推翻藥是無效的假設」vs 「統計上接受藥無效的假設」這兩句話是個考點,如果是選擇題出現這兩句話,統計老師沒有出錯題目,也不是在跟你玩文字遊戲,他是要知道你對假設檢定的概念有多了解。(而且他也知道:就算你選對了也不代表你了解,只代表”你有了解假設檢定的可能性”比較高。)

 

不知道看到這裡有人覺得:什麼?這麼辛苦收集資料分析,結果p值偏大,所以得到統計上的結果居然是「沒有證據推翻藥是無效的,而且還不保證藥真的無效」真是個沒用的結論!! (是的…而且這種事發生的還不少,要達顯著沒有那麼容易的,下一篇說說為什麼。)

 

雖然看起來對這一次的研究得了一個很沒用的結論,但已整個領域來看,經過長期的研究報告,當藥已經被研究很長一段時間也被探討好多次,結果大部份研究團隊做實驗收集資料都做出"統計上不顯著”的結果,那慢慢的就會認為藥沒有效而不再探討了。 即使得到看起來很好的”藥有效”的結論也是一樣的,只有一兩篇研究說”藥有效”是不夠的,還是要長時間探討的。

所以說,你是不是能更明白學術界要得到一個共識有多麼不容易?然後也不要因為新聞說一篇最新研究說XXXXXX就把他看得太認真。另外,這裡的藥有效當然只是個想讓人方便了解假設檢定過程的例子,不是研究藥就是這樣,特別是開發新藥、包含副作用什麼的,那有超多的事情要做,細節還是要問專門在做這個領域的。這邊只是想讓大家對非常被常使用的p值和假設檢定的過程有個大概的了解。
再複習一次:
假設檢定的過程:針對問題訂虛無假設 -> 在假設成立下計算p值 ->  以p值做參考你覺得假設對嗎?
「p值」的定義:「在"虛無假設成立"時,出現"這組樣本及更極端樣本”的機率」

 

然後…因為p值的不易了解,和結果常常讓人不滿意(不顯著),後來就有了一些問題,而且隨著資料取得越來越容易,計算速度越來越快,問題就越來越嚴重,導致ASA要出來解釋p值是什麼,提醒大家不要再誤用他,不然就用別的替代方案。

 

(待續…寫了一堆,終於解決最難的部份了,應該不會有比這個更難的概念出現了。)

 

====統計的日常生活====

不知道有沒有人注意到…統計的世界和一般人內心的小世界主要的差別就是:

統計的世界是機率的世界,但人很喜歡二分法的世界而且是「非黑即白」的世界。

 

來個小劇場~~

 

人:統計統計,我懷疑霹靂貓是壞人,你覺得呢?

統計:你要怎麼定義好壞....我們先討論一下....

(經過了一段時間監視調查霹靂貓並分析。)

統計:根據你對好壞的定義,他平均一天中5%的時間做壞事,30%的時間做好事。如果要用假設檢定來看:虛無假設是他是好人,p值為0.1.

人:所以…他是好人。

統計:嗯…他平均一天中5%的時間做壞事,30%的時間做好事。

 

過兩天聽到霹靂貓酗酒鬧事的八卦… 

人:你說錯了,他是壞人。

統計:呃....如過須要可以再做一次研究。不過我是說:他平均一天中5%的時間做壞事,30%的時間做好事。

 

再過幾天,聽朋友說霹靂貓常常從事公益活動

人:他其實是個好人嘛!

統計:嗯…他平均一天中5%的時間做壞事,30%的時間做好事。

 

再過幾天,看到霹靂貓在FB上大肆批評台灣。

人:他是壞人!統計果然都是騙人的!

統計:呃....(我沒說他是好人呀.... 還有....你可以不要再鬼打牆了嗎?)

(經過一翻思考後)
統計: 人呀……你知道機率嗎?

人:知道呀,氣象預報說今天降雨機率60%。我出門有帶傘。但是氣象預報常常都不準啦....

統計:........ 
========
統計觀念建立的第一篇:統計二三事~數字背後藏了什麼?
談尊重別的行業:統計二三事~假設檢定(2)電影12怒漢大審判

霹靂貓 發表在 痞客邦 留言(2) 人氣()

我之前花了好一翻功夫去想,”愛自己”到底要做什麼?後來終於找到屬於自己的答案。
簡單說,都寫在前面的文章裡了,看明白了之後試著開始和外界正常交流,就是開始愛自己了。
 

愛自己不是只有外在的:吃幾頓好吃的而已、買幾個好東西給自己、保護自己…

 

霹靂貓 發表在 痞客邦 留言(0) 人氣()

好奇心很重要!!!
好奇心很重要!!!

霹靂貓 發表在 痞客邦 留言(0) 人氣()

我常常覺得"可恨之人必有可憐之處",而可憐人很可能有可恨之處。
如果覺得一個人可恨,通常背後有個可憐的過程 (有個可憐的過程並不表示值得同情)。如果覺得一個人可憐而同情心他,要先想一下他其實不是你想的那麼可憐,可憐他,也不一會給他幫助,甚至可能帶來傷害。

這裡要提一個很多人知道的概念:同理心。
但是我不知道有多少人明確知道同情心(Sympathy)和同理心(Empathy)的差異,請先看解釋很清楚的影片:
https://www.youtube.com/watch?v=9ZSiC59j0ak
同理心的特點:
1.接受他人觀點 2.不加評論 3.看出他人的情緒 4.嘗試交流
我們都學過要「設身處地為別人著想」,
但我們通常把同情心和同理心混在一起了,
同情心是透過自己的小世界,想像有他的經歷,有什麼感受?
同理心是透過”他"的小世界,想像有他的經歷,有什麼感受?
所以同理心的第一點,就是要接受他人的想法,用他人的想法來看。這麼一看,同情心停留在一種比較自私的心態,同理心是和人相處的基礎。

先舉一個真的要"收起不必要同情心"的例子:

http://www.businessweekly.com.tw/article.aspx?id=12684&type=Blog

霹靂貓 發表在 痞客邦 留言(0) 人氣()


每個人都會在某些方面有自信,但在某些方面缺乏自信。非常鼓勵大家去發覺自己在哪些點上容易偏激、自大、自卑、容易岐視別人、容易覺得被人歧視,這些大都表示自己在這方面缺乏自信。


 

對於只是一時被謠言誤導造成的偏見,很容易透過溝通修正。如果很難被修正、有些偏激,那大概有自大和自卑的心理。自大來自無知,自卑來自缺乏自信。而自大的人容易岐視別人,自卑的人容易覺得被人歧視、被忽視。甚至某些人對一些話很敏感,突然有偏激的行為,或一直強調自己的弱勢或優點,都來自「缺乏自信」或「無知」,想讓別人看到自己,證明自己。因為對方陳述事實或單純心情不好所表現出來的行為,就強烈覺得”被歧視”,也是自卑的表現。


 

霹靂貓 發表在 痞客邦 留言(0) 人氣()

有時候歧視是還不錯的,例如,學生優惠或保護弱勢的想法,所以也沒人指著大喊,這是歧視、偏見。從這裡出發,會有一些「社會福利」的問題,很值得思考,暫時跳過。先討論到個人身上發生的歧視與被歧視的問題。
岐視來自偏見,偏見的根源是…

「懶」 (這個答案感覺好囧…但就是我的答案沒錯)
懶又不想讓人發現自己無知,懶得認識外界,但想假裝自己知道,然後對外界人事物隨便貼標籤,這就是偏見。
不得不說貼標籤真的是一種不錯很方便省事有效率的作法,我也常常這麼做,畢竟這個世界這麼大,生命有限,我們沒有辦法去接觸所有人事物,所以有偏見存在是有幫助的。
問題是,在貼標籤後,有機會多認識一些人事物時,我們願意進一步認識嗎?如果因為這些標籤拒絕接觸,懶得把標籤拿掉,透過標籤看人,懶得認識新的人事物,懶得修正標籤,懶得....…然後,問題就很大了。
更何況,我們活在這個垃圾爆炸的時代,
毫不自覺被洗腦,
撿回一堆垃圾標籤放腦子裡,
從此透過那些標籤看別人、懶得溝通、懶得更新標籤認識外界、
……..
我只能說:請大家重新思考這整個過程的問題和整個問題的嚴重性。
仔細想想…
傳流言就是發垃圾,讓那些想要大家被洗腦的人得意;
妄下批評或直接漠視別人,放棄溝通放棄了解別人的機會,同樣會增加偏見誤解對立衝突,也是讓那些人得意。
這種傷害整個社會讓極少數人得意的事,是我們現在最不須要的。
我相信能看到這篇文章的人都不是這麼嚴重充滿偏見的人,也因此更想鼓勵大家有機會能告訴親友們,我們已經沒有空搞分裂了,有很多的事要去做,要用來彌補過去幾十年來整個社會因為種種偏見對立,所受到的傷害。
想明白問題的來源,要怎麼消除這種不好的偏見的答案應該就出來了吧?
在我眼裡,一再對小孩們強調不要偏見和岐視,誰是強勢誰是弱勢,誰欺負誰,誰值得同情,還不如直接培養他們對人和對社會和對世界的好奇和關心不要只用片面的資訊去看所有人事物
最後,如果說歧視的問題也是自大與自卑的問題,你覺得呢?

霹靂貓 發表在 痞客邦 留言(0) 人氣()

如果歧視是罪的話,應該是宗教上的觀點:人都是有罪的。不會有國家法律把歧視當做一種罪吧?
然後我必須先下個定義才能討論,不然可能會吵個沒完沒了(定義很重要!!) 如果有專業的看到,請不要計較他的不完整,我的小世界裡這麼定義:

當一個人因為自己的心裡存在偏見的時候,對外表現出某種差別待遇的行為,就是岐視。所以「偏見」是心理,而「岐視」是因為「偏見」產生的差別待遇。
以這種定義來看得到的結論是:
每個人或多或少都會歧視人,而且台灣社會的歧視現象非常非常嚴重!
好險歧視沒有罪,不然我也是罪人…懺悔中。而且學生票這種東西,對辛苦工作的大人們根本是一種歧視啊!!!
很幸運的是(是嗎?),我們的社會價值觀已經灌輸大家:「岐視是不好的,歧視別人的人有問題」一般人心裡”歧視"是一個強烈的字眼,也不會表現出容易被認為是岐視的行為,或是會用這是一種”偏見”來輕描淡寫。但是以我的定義來看,隱含偏見的行為就是歧視了。
那麼強調這種社會價值觀真的好嗎?我們不要「歧視」就好了,「有偏見」就沒有關係嗎?這真的可以幫助減少歧視嗎?如果可以的話,台灣或美國的歧視有比以前少嗎?
另外,沒有明顯的岐視行為不代表沒有偏見,甚至可能只是因為「社會價值觀」暫時壓抑住一種強大的偏見。例如:從川普當選後,有些人會傳報美國各地種族歧視爆發的行為,想控訴川普的歧視和勝選帶來的影響。但是,一個人怎麼會因為選個總統,就瞬間從不歧視學會歧視?
合理的解讀應該是:一種強大的對不同種族的不滿在過去被壓抑住了,他們在川普當選之後,覺得終於可以將他們的憤怒發泄出來。當然,還有一部份原因可能是,選後大家很敏感,所以有一點歧視的問題就一直報。而這兩種情況好像都說明,很強的偏見一直存在!
對了,有沒有人發現…灌輸大家「岐視是很不好的,歧視別人的人有問題」這種觀念,可能本身就是一種歧視?(笑)

霹靂貓 發表在 痞客邦 留言(0) 人氣()

Blog Stats
⚠️

成人內容提醒

本部落格內容僅限年滿十八歲者瀏覽。
若您未滿十八歲,請立即離開。

已滿十八歲者,亦請勿將內容提供給未成年人士。