生活統計二三事

Feb 06 Mon 2017 08:38
統計二三事~目標和量測。教改失敗了嗎？總是覺得新政策不好？

所謂的"量化"研究有多重要？其實就跟考試有多重要差不多。
考試這個東西，就是統計上的一種量化、量測方法。學習情況、學習能力這些東西是抽象的，沒有工具量測，所以我們用"考試"來幫助了解小孩子的學習情況，例如針對數學能力，得到的數學成績，就是小孩子的數學能力的量化。而一般研究比較抽象議題的時候，我們靠問卷，問卷的作用跟考卷是差不多的。這種量化值可以用來幫助個體了解自己的狀況，也可以幫助研究者了解整個群體的情況。

但真正在做量化研究時，題目設計非常重要，要能夠問出研究者所關心的事。一般新設計的問卷是要先測試的，就是設計完要試用看看，題目清不清楚？會不會有”誘導”答案的現象？有沒有辦法真的量到我們所關心的問題？填問卷的人有沒有亂答？......總之，把抽象概念定義清楚到量化的過程也是一門學問，問卷設計和實驗設計都很重要。

然後我們就想到，考卷也是一樣的道理。只是一般學校的考卷很單純，因為他限縮在一個”考試範圍”內，來評量學生”這一段時間"的學習成果，並不完全代表”能力”。而要了解成績分數到底有多高的參考價值，細著看，要去看考卷的問題才知道，畢竟不同學校不同老師有時候有不一樣的出題重點和風格。如果不細究，有些很具規模有公信力的考試，是非常費心去設計出來的而且能測出”能力”，至少像”托福"這種考試，我覺得它確實有一定衝量英文能力的作用。(不過托福是注重學術英文的量測上，其他考試檢定我沒接觸過就不提了，相信有不少有公信力的。)

所以成績分數，你可以說它很重要，因為他是一個參考值，也可以說它不重要，因為他就是個參考值。統計數字就是這樣的，像之前提的假設檢定的p值(1)概念，它就是個參考值，不必要過度看重或追求，但也不能輕視它暗藏的訊息。

看到這類的參考值，重點是：我們有沒有辦法"讀到"這個值背後的意思，而不是神化它或是貶低它。
要了解分數背後的意思，有時候必須去看問卷問了什麼問題，考卷問了什麼問題，到底有沒有真正的”量測”到”你以為"的那個”數學能力”、”英文能力”、”滿意度”、”幸福指數”，很多時候研究者或出題者定義的目標和用來量測的問題，或是一些實驗設計的方式，可能和你想的不太一樣。

如果我們也這樣去討論教改的成敗，確實會發現有個問題使教改從"一開始"就被媒體或是大多數人判定為"失敗"。那個問題就是：
教改的「失敗」和「成功」到底是怎麼定義、怎麼衡量的？
理論上，教改的失敗和成功是要依照教改及教育的「目標」下去判斷的，而且要有適當的量測方法去評價。

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：統計二三事

▲top

Feb 06 Mon 2017 07:31
台灣特有評價系統~教改 (教育有問題真的是因為教改嗎？)

我們討厭教改。

我們心裡有一個很特別的評價系統：凡事跟教育教改扯上關係的，都是教改的錯。只要看到現在小孩如何不懂事、學生做了幾十年前的學生不能做的事、年輕人如何沒常識，最後就忍不住就要來一句，一代不如一代，都是教育的錯，都是教改的錯。

「教改失敗了」嗎？教育有問題真的是因為教改嗎？

教育一直是一個問題很大，但是我不是教育專業的，而且我還真的沒研究過教改改了哪些東西，課本內容改了什麼，老師的培訓是怎樣的...所以對於教改我還真不好開口說什麼。真的要研究教改，還是找那些教育專業的討論文章吧！有涉入教育界的朋友們，在方面應該能有更多能做的事。

而我呢…也改不了什麼教育政策，制定不出什麼偉大的計畫，所以討論這個問題，完全就只能”一般人”視角。只有用一般人立場，我們才能想想我們能做什麼……

一般人視角的話，第二個問題”教育有問題真的是因為教改嗎？” 才是個值得想的問題了。在我這裡會覺得：教改對教育的影響遠不如想象的大。會有教改，就是教育已經先出現問題了，就算沒有教改，我也不覺得台灣的教育問題會比現在少。是的，不會好多少的，因為很多問題在我小時候就已經浮出來了，所以才要教改。

我不知道別人怎麼樣，但對我而言，學校做到的是補充各種”一般長大後須要的知識”，但是各種思考模式觀念卻是來自身邊的大人們和朋友們。也就是說，學校給的知識，是幫助我以後對某一類問題有興趣時，能有一個基礎的認知，讓我能自我學習的工具，但各種思考和面對問題的方式和態度，是身邊的”人"給我的。特別是大人們是直接表現出來的，我指的不是”口說”而已，而是一種對事情的行為和反應。就像”活到老學到老”這句話，人人都會偶爾感嘆的時候說一下，但是真正”活到老學到老”的人是不多的。(可以查一下”趙慕鶴”老先生，我覺得他真的是「活到老學到老」的代表人物。)

在小時候，身邊的人們中父母是絕對的權威，學校老師示範再好，回家被父母一口否定，或是一個行為暗示，大概就毀了一大半了！

"到學校玩到補習班認真上課”是什麼樣的心態養出來的？
“學習知識"一定要人教嗎？有人能好好教好好引導是幸運，但自己練習學習不是最重要的嗎？
學習新東西應該是快樂的事，那“不喜歡念書”的心態又是怎麼養出來的？
"小孩子只要讀書就好，其他什麼都別管”的心態沒問題嗎？做為家庭的一份子，這不是一種不負責任的想法在灌輸嗎？
學了一堆英文外文，學英文的年紀越來越小，我們真的用英文來幫助認識世界嗎？
(真心覺得不要浪費錢了，省下來全家出去走走多好 XD)
拚命找人教小孩，結果大人們只顧工作，在很多知識上沒有學習長進……這就是社會上的大人們給小孩的身教嗎？
上一代把自己的希望托給下一代，但是又一直覺得一代不如一代？一代真的有不如一代嗎？” 把自己的希望托給下一代”是我們要學的嗎？
......

想到這裡，我就常常覺得教改是被拿來當不負責任的大人們的擋箭牌而已，好像說的都是教改的問題、都是學校的錯之後，就沒有自己的事了。這是不是是一種推卸責任的示範？特別是很愛隨便影響視聽的媒體，明明埋下各種不良示範的種子，卻又愛說”教改”毀了台灣的教育……

學校教育本來就是個很好的輔助，父母沒辦法教小孩的知識，學校去教。家庭教育難免有些問題，有學校有輔導室給小孩子另一個管道，相輔相成。但是如果大家忘了學校教育輔助的立場，把教育問題推給學校.......

真的不用這麼瞧得起教改，而小看了父母和社會的威力，其實就是每個人的威力~~~

========
"教改失敗了嗎？"這個問題，從統計上真的是有一點可以說的。為什麼常常覺得新政策都是有問題的？
請看：統計二三事~目標和量測。教改失敗了嗎？新政策都是有問題的？

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Feb 01 Wed 2017 23:34
台灣特有評價系統~效率(草稿)

我們喜歡效率。

我們心裡有一個很特別的評價系統：凡事都是效率越高越好，時間越短越好。

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 29 Sun 2017 08:16
第9篇：異國長期生活，改變了你的哪些”是非觀”？

問：異國長期生活，改變了你的哪些”是非觀”？
這個問題來自知乎48問裡，裡面給了一個我很喜歡的答案 (至少我想不到這麼好的答案)。

答：很多事情只有不同，並無是非。

這個答案我有很深的感受。我覺得要討論是非對錯、公平、道德、正義是件麻煩的事，因為在不同的條件和每個人不同的立場，我有不同的答案，沒辦法分門別類整理出大方向，而且是須要一件一件看，而且每個人要找自己的那把尺。如果真的很想探討「是非、公平、道德、正義」這類的問題，先推薦「正義：一場思辨之旅」，然後你可能會發現，當”立場"不一樣的時候，想法做法都不太一樣了。先說之前上課發生的抖腳故事當例子吧！

我們被教育的是抖腳是不好的，「男抖窮女抖賤」，所以不太遇到抖腳的人。剛到美國的時候有點不習慣，上課的時候有些同學有時候會抖幾下，看著很礙眼，直接就分心了，雖然知道是文化差異，但就覺得很煩，剛開始還真想去把那腳按住…...後來有一天上課，瞄到旁邊一排男生5~6位男生，不分國藉種族在抖腳(中美俄印)，我突然只想大笑。 ( 是上課上到太無聊嗎XDDD ) 從此以後，看到人家抖腳我就想到這一幕，不生氣了，只想笑……

其實抖腳好像真的還能提振精神、促進血液循環什麼的，搭飛機搭久了腳也真的很想多晃兩下。不是說鼓勵大家抖腳，只是對於別人抖腳這件事能更放寬心，畢竟抖腳這件事本無是非。偏偏在傳統的觀念裡，這成是大非，直接就覺得會抖腳的人沒教養、排斥沒教養的人........ 何必呢？

而且我現在還很好奇一個問題：

就算抖腳真的會造成人分心，真的有影響這麼大嗎？是不是因為我們被教育「抖腳」是不好的，所以一看到有人抖腳就更容易覺得生氣也更容易分心？如果我們生在沒有這種價值觀的社會裡，會不會有時看到有人抖腳也習以為常，反應就不是這麼大了？而且抖腳有時候是生病了，我們社會不願意包容這樣的人存在嗎？從這個例子開始，希望能稍微讓人重新想想那些被灌輸的是非對錯，真的有這麼嚴重嗎？超過法律的那些道德標準，可以拿來自律，但要拿來評價別人的嗎？隨意評價別人好像就是一件不太道德的行為。

就像下圖，爭執這是6或是9有意思嗎，或是他其實是個の？還不如想個法子避免出現這種誤會發生。
(上排文字：只因為你是對的不代表我是錯的)

(下排文字：你只是還沒有從我的角度看到人世的樣子。)

以一個人的立場，要換去另一個立場看問題是很困難的。但是透過討論交流，可以讓我們知道從不一樣的角度來看事情會變成怎樣。我們可以有很多不一樣的想法，而且無所謂對錯的。溝通交流的其中一個要點是要有個共識：「我們不是對立的，我們雖然站在不同的立場，但是是要互相幫忙來解決對方的問題，盡量追求雙贏的局面。」如果一直太強調自己的立場，太在意對錯的問題，或害怕說錯話做錯事，結果心中有標準有自律的人都不說話了，讓那些沒什麼標準或不怎麼自律的人在外面大聲說話，混亂視聽，這樣對我們真的好嗎？

又想到瞎子摸象的故事了 (第8篇)，在大象真理面前，我們都是睜眼瞎，但因為我們站在不同的位子，所以有不同的立場用不同的方式描述，但都是在描述大象。只有用一個角度碰觸到的，都不是完整的大象，不是嗎？在這個時候，我特別覺得「真理越辯越明」這句話是有道理的，這裡的真理並不是侷限在真相和是非而已，不是吵架大聲的贏，也不是看起來有理有據的對，而是透過這種越多人從不同角度討論的過程，才可以稍微窺探出，世界、人、真理的輪廓，就像我現在覺得「很多事情只有不同並無是非」就是真理的輪廓之一。

PS 只有抖腳的例子好像還不夠，試著開一個系列主題「台灣特有評價系統」，看看哪些我們以為的絕對正確或錯誤的想法，未必總是對的，甚至已經產生了傷害(過猶不及)，引入些和台灣人習慣認知不同但也不錯的想法進來，希望以後能看到更多不同的點切入。我們應該試著有更多不同的思考方式來看問題，而不是只停留在批評是非對錯的階段(說白了就是把責任推在一個人或一小群人的身上)，沒有從問題的根本上下去思考解決和預防的方法，一直把這些問題留給未來的我們，在未來的人生裡還不斷遇到同樣的問題，同樣的吵鬧同樣的不開心，這不是太浪費生命了嗎？

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 27 Fri 2017 13:25
統計二三事~假設檢定(2)電影12怒漢大審判

在有假設檢定的基本概念下，這一篇沒有難度 YA~ 如果沒概念，建議先回第一篇。

先複習一下假設檢定的過程：

針對問題訂虛無假設，然後計算虛無假設成立下抽到這組樣本的機率(p值)，以p值做參考，看虛無假設成立嗎？

在上一篇已經了解，因為實務上常常須要一個"結論或決策" (藥到底有沒有效？要不要使用這個藥？)，須要訂一個門檻值來幫助做結論：

1.「統計上達顯著」表示p值小於門檻，「有足夠證據推翻藥無效的假設」。

2.「統計上不顯著」表示p值未小於門檻，「沒有足夠證據推翻藥是無效的」。

然而，要做結論或下決策時，守先要牢記在心的一件事是：
「任何決策都有風險，都有可能發生誤判。」

就像準備過馬路的當下，“過馬路"是風險很高的行動，因為如果誤判(就是在不能過馬路時過)下場很慘；相對上”不過馬路"的誤判風險是較小的，頂多浪費點時間。這時候，"不能過馬路"會被當作一個不能輕易推翻的假設，只有當有足夠的證據能安全過馬路時，才會過馬路。我們會更保護虛無假設”不能過馬路"，避免草率做出”過馬路"的決定。假設檢定的過程就是這樣的概念，一般會把”現狀"或"須要保護的"當做是虛無假設(例如：藥無效、A和B沒關聯)，沒有足夠證據不會去隨便推翻現狀。

如果過馬路時可以做假設檢定的話：

虛無假設：不可過馬路 vs 對立假設：可過馬路

接著根據車速車型式距離做推測，我們可能採取的行動是”路邊等”或”過馬路”。

如果做了正確的決策，我們可以"很安全在一旁等”或"很順利過馬路"。

但也有可能做出錯誤的決策(誤判)：

1.不可過馬路時過馬路 (這很危險，後果嚴重) [型一誤判]

2.可過馬路而不過馬路 (浪費時間，小損失啦) [型二誤判]

這兩個選擇發生誤判時的風險、成本、損失是不一樣的，兩種誤判裡，型一誤判是較嚴重而須要控制的。做決策時會控制型一誤判發生的機率必須在一個門檻以下，這個門檻就是前一篇講到的「顯著水準」。而在不同領域，誤判的風險程度可能不太一樣，能夠容許的型一誤判的機率不太一樣，但是一般顯著水準都會設在0.05以下，有的甚至到0.001以下。

專有名詞定義：

型一誤判 (Type I Error) ：虛無假設為真時卻拒絕虛無假設 (亦即：錯誤拒絕虛無假設)。

型二誤判 (Type II Error)：虛無假設為假時卻接受虛無假設 (亦即：錯誤接受虛無假設)。
有必要的話記較嚴重的型一誤判的意思就好了，另一種就是型二。

有一個統計學書上會出現做對照的例子，「法官判案」，也有著相似的原理。

虛無假設：被告無罪；對立假設：被告有罪

型一誤判：被告無罪但被判為有罪 (冤獄)

型二誤判：被告有罪但被判為無罪 (誤放有罪的人)

不管一般人怎麼想，法律是要保障人權的，法官所處的立場是”被告無罪”的，除非有夠強的證據，是不會輕易判一個人有罪的。也就是說：法官宣判無罪的意思是「證據不足以證明被告有罪」。我自己覺得：一個法官就算會心裡強烈懷疑某人有問題，但是只要照法律證據不足，還是不能隨便判有罪的，結果他們卻要被媒體和民眾冠上恐龍之名，我們真的希望看到法官被媒體和民意操作嗎？還有些人缺乏法學素養，就想著法官都是收賄，還有些人會有一些奇怪的想法：「如果你沒做壞事，為什麼不願被公開檢驗？」「如果你沒做壞事，為什麼....？」這類句型就是典型的"預設被告有罪"的立場的思考(一種思考陷阱，請小心)，確實有些罪是被告須要自行舉證的，但是大部份都還是"無罪推定"。

我知道這跟一般人想法不一樣。非專業的人可以看了些消息，或一些人單方面的說法，或因為媒體報導和網路各種圖片證據，就認為某些人是壞人，那些沒有判他們刑的法官就是恐龍法官，隨便貼標籤。但我就是忍不住想說：不要人云亦云，隨便說人家是恐龍法官。
在專業的立場，都是講究證據力的，沒有確實的證據，還是不能判有罪或說藥效顯著。專業上要考慮證據力的強弱，遠比一般人想得多的多。像前一篇提的減肥藥有沒有效的檢定，其實那在藥有沒有效的判斷上就是個有問題的作法。一般人可以吃個藥覺得自己有瘦了幾公斤，就跟人家說，我吃了有效耶。但是在研究藥有沒有效的實驗裡，只依靠"吃藥的人平均體重減5kg"來檢定蘗效是不夠的，還要看"和服用安慰劑的另一群人比，平均體重有沒有減足夠多"。如果另一群服用安慰劑的人"平均體重就減了3kg"，藥真的有效嗎？或只能歸類為心理作用而已？

如果有些人會想說：「明明都有這麼多人這麼說那麼說了，證據確鑿，絕對有罪啦」有這種未審先判的想法，有一部電影請一定要找來看：「12怒漢」。希望看完以後你會覺得，”證據確鑿"什麼的還是很難說的，冤獄之類的說不定很多。這故事就講一個陪審團在討論一件子弒父的謀殺案，很經典的討論過程，其他就不透露了，有機會直接找來看吧，非常有意思的電影。這部電影至少有四個國家的版本，除了日版的我都看了：

1 美國(1957)：12怒漢。

2 日本(1991)：12個溫柔的日本人。

3 俄國(2007)：12怒漢：大審判。

4 大陸(2014)：十二公民。

每個版都有融入各國家的問題和文化。美版(1957)被譽為影史上最偉大的法庭片、辯證推理片，絕對是值得看的。大陸的接近美版的精神，加了些地方文化元素。俄版比較特別，精神已經和美版不一樣了，更哲學一點，文化因素會不好懂，但我很喜歡俄版的結局。

我們都有自己的專業。不是只有科學界的才叫專業，投入心力的工作領域就是一門專業了，各行各業都是一種專業，包含家庭主婦。當自己的專業受到質疑的時候，誰不生氣？不懂行情的人給你亂砍價，生不生氣？有人說媽媽帶小孩做做家務事有什麼好累的，生不生氣？

好奇怪，自己的專業被侵犯的時候氣得要死，一回頭就對別人的專業指手劃腳？為什麼我們不尊重專業？

我不否認每個專業都有老鼠屎，但是如果因為他們，就在心裡把一群人隨便貼標籤判刑，會不會讓情況變糟：反正不管有沒有規矩做生意了，大家都覺得我們賺太多錢沒良心，就來亂砍價，我日子都過不下了，是不是只能想辦法降低成本，用一些次等的原料？

以後如果身邊有人有隨便批評別的專業、隨便給人貼標籤，是不是可以稍微跟他提醒一下，不要讓這種情況在台灣惡化下去了。畢竟，當我們隨便質疑別人的專業的時候，是不是暗示別人也可以隨便傷害我們自己的專業？

法官的糾結我是有感觸的，所以才有這一篇。以前做分析偶爾也會遇到這種困擾：研究結果的p值就在那裡，跟門檻值就差那麼一點點，研究人員好糾結好希望讓我們弄出個顯著的結果。理論上我也覺得差那一點點門檻值也不是那麼重要，畢竟假設檢定是很保護虛無假設的，研究還是有一個結果的，只是結果不如”預期”的好。但要用該領域的標準門檻二分法，不顯著就是不顯著呀！

後來，有些研究人員急切想要達到顯著結果的心態，就像一般人急著把人判刑一樣，再碰上電腦計算速度越來越快，就鑽了些過程上的瑕疵，所謂的”摘櫻桃”就是一種誤用的現象。

(待續)

====統計的日常生活====

統計的世界是機率的世界，並知道做決策的時候，有一定的機率會誤判，任何決策都伴隨風險。

人的世界是非黑即白的世界，輕易的上了顏色又不肯改掉，字典裡沒有”誤判”、”風險"。

來個小劇場：

(恐龍新聞播爆X油案法院宣判結果。)

人：哇!!!那個X油案鬧好大，那群人太壞了，都該下地獄。

統計：不知道，對油沒有研究，不予置評。

人：喂…統計，你說那個判他們無罪的法官是不是很過份？

統計：等我收集資料了解一下情況。

人：台灣怎麼都養這種恐龍法官呀，太過份了。

統計：怎麼扯到別的法官了？我現在只針對這件事做資料收集，如果要把台灣的法官當全部感興趣的對象，要另外研究喔!!

(過一段時間)

統計：在X油案裡，沒有充份證據證明是恐龍法官。

人：(愣) 什麼？所以不是恐龍法官？那群人真的無罪？

統計：有些資料顯示........

人：(怒) 哼! 這一定是哪來的妖言惑眾。那是恐龍法官。

統計：(不是新聞是最妖言惑眾的嗎？) 嗯，抱歉，我還以為恐龍法官是指不守法律和司法程序、故意釋放有罪的人的法官。現在重新定義「恐龍法官」是指做出了違背"媒體和民意”的法官。是的，那是恐龍法官。

人：(惱羞成怒) 你是恐龍統計!

統計：…… (重新定義也不行，想跟你達成共識，我容易嗎我？)
========

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：統計二三事

▲top

Jan 24 Tue 2017 10:19
統計二三事~假設檢定(1)概念(這一系列，不了解統計的請進)

起因是去年美國統計學會(ASA)因為某統計方法被濫用的太嚴重了，所以發了些聲明。
有幾篇文章在介紹，但對沒念過統計的人有點深，但都有幾個很重要的點，我嘗試用白話一點的方式講，希望減少大家對統計的錯誤印象。統計出錯騙人的，大多都是解讀的過程產生的誤會，或是因為”人”沒有按照一定規則進行分析。在說這些問題前，有些必須先介紹的。

統計二三事(1)~這裡簡單說明基本的概念~寫給沒學過統計的人看的~

這個被濫用的方法叫”假設檢定”，裡面最被誤解的叫”p值”。這個東西對沒有統計概念的人不是看一次能完全懂的(其實是用文字介紹不好懂=_= )，但是因為他真的太太太常被使用了，像是看藥有沒有效、某某肥料會不會增加產量.....之類的問題，統計上最基本的方法就是靠假設檢定提供參考，所以可以的話請試著想一下了解它。

前面介紹”假設檢定”的部份可能要讀慢點。不過前面沒完全看懂也沒關係，應該不會嚴重影響後面的理解。

先想一下：

1. 你有一枚硬幣，但懷疑硬幣好像不是公正的，所以你就問：這是公正硬幣嗎？
[你提出研究問題了。公正硬幣出現正面的機率是0.5。]

2. 我們一起做實驗：擲了10次，結果有9次出現正面，1次出現反面。
[抽樣本，得到一組數據。]

(怪怪的。好像真的很有可能不是公正的硬幣。怎麼判斷呢？
一個想法：如果這個硬幣是公正的，擲了10次，應該比較容易出現接近5~6次正面結果，而不容易出現"極端"的情形，當樣本越”極端”，我們越懷疑硬幣的公正性，最極端就是指 0次或10次正面這種情況，說他們”最極端”，因為他們應該出現的機率最小。但10次得10次或0次正面就夠極端嗎？就可以說硬幣不公正嗎？那出現>9次或<1次正面夠極端嗎？還是>8次或<2次就夠極端了呢??
有這個想法，要看夠不夠極端，我們就來算機率，因此要算"一個公正硬幣擲10次，得到10、9、8…0 次正面的機率"是多少。)

3. 接著開始假設檢定的步驟。記得：在前面的想法裡，我們是想要算"公正硬幣擲10次，得到10、9、8…、1、0的機率”。也就是我們是先”假設"”硬幣是公正的”才下去算機率。
[注意：所以這個機率值是在一個"假設"成立的情況下算的，這個假設叫「虛無假設」(常用代號H0)，這裡的虛無假設是硬幣是公正的。]

4. 於是我們算出，當硬幣出現正面機率0.5時，擲10次得到X次正面的機率如下：

0 1 2 2 3 5 6 7 8 9 10

0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
上一列表示”出現正面的次數”，下面的數字是對應的機率。也就是得0次正面的機率是0.001，而能投出1次正面的機率和是0.01。以此類推。

上表我們發現，對公正硬幣，能投出最極端的10次或0次正面的機率和是0.002(=0.001+0.001)。
而能出現>=9或<=1次正面的機率和是0.022。

記得嗎？實驗結果我們得到了9次正面，9次和更極端的所有情形(就是>=9或<=1)機率和是0.022。
[這個機率值的名字就做p值(p-value)，在這裡請先停一下，重新想一下這個例子裡p值是什麼意思，因為要把他用文字寫成最簡單的定義是一句很繞舌的話。]

5. 那你覺得下面兩種情形哪一種比較符合現況：
a. 虛無假設沒問題，0.022的機率也沒問題，是我們運氣好，所以0.022的機率被我們抽到了？
b. 我們運氣沒那麼好，0.022的機率有問題，0.022的機率是在虛無假設成立下得到的，所以虛無假設根本錯了？
[p值越小越傾向推翻虛無假設，也就是越傾向硬幣是不公正的]

上列的3~5就是假設檢定的過程，就是：
針對問題訂假設 -> 在假設下算樣本的機率-> 你覺得假設對嗎？
(如果可以，再回頭快速想一下整個看硬幣公不公正的過程。)

其他補充定義：
1. 另外有一個名詞叫「對立假設」(常用代號H1或Ha)，在這裡是指"硬幣不公正"，就是和虛無假設相完全對立的情況。

2.「p值」的繞舌定義是「在"虛無假設成立"時，出現"這組樣本及更極端樣本”的機率」
在前面的例子裡，虛無假設成立即是硬幣公正；這組樣本及更極端樣本是 <1或 >9
除非用符號表示，不然沒有別的精簡版本可以說明他了，就是因為他太繞舌了，所以他的意思常常被忘記或偷換概念。

接下來：換一個生活一點的例子做假設檢定：我們想研究藥有沒有效，先假設"藥沒有效”，去計算手中的樣本及更極端的機率。

假設這是減肥藥，收集樣本後，得到使用前後人們的"樣本平均體重少了5kg”的數據。接著就去算p值「如果藥真的沒有效，得到"平均體重減少5kg以上"這組樣本的機率」，跟硬幣的例子一樣，如果機率太小，就是極端樣本，我們就越傾向認為”藥沒有效”的假設是有問題的。

(不重要…但要體會這個機率值的大小可以稍微想一下：
這個p值是0.01代表：如果有錢有時間有辦法重複進行同樣的實驗100次，也就是重抽資料100次，可以得到100個平均體重差，在藥無效的假設成立下，大約會有1次實驗是”平均體重減少5kg以上”。
以此類推，如果這個機率值是0.05(1/20)，那就是：藥真的無效時，20次重複實驗中大約會出現1次”平均體重減少5kg以上”的結果。)

假設檢定介紹完畢，結束。
====

本來到這邊就應該結束的，結果你問了一句：所以得到p值說機率是0.05藥到底有沒有效?

我：嗯…呃...你說呢??

你：嗯…有效? 沒效?

我囧 (OS: 饒了我吧~我跟這藥不熟呀! 那是專業去判斷的事呀! 為什麼一定要我用二分法回答呢?)

在這個疑問下，有些人訂一些標準來下結論：當p值小於一個門檻值，就叫「藥有效」，不同領域的門檻也不太一樣。(OS: 呃…隨便吧…你們是這個領域的專家呀，我已經把p-value的意思告訴你也計算給你了。)

這些標準的門檻值(0.05或0.01或0.001...大部份小於0.05) 有個名詞，叫「顯著水準」(常用代號alpha)，到後來甚至把這種標準奉為規臬了。

(OS: 囧… 誤會好像越來越嚴重了?…可是”門檻值"是你決定的喔…)。

其實統計界會更傾向只報p值而不訂門檻，有不少人根本就想把這種標準和門檻給廢了。

接著大家就以為「統計說藥有效」、「民調(統計)說XXX會當選」。

統計表示：(驚!!!) 不!!!!這哪兒冒出來的?怎麼跳出這些話？我從來都沒說過這些事!真是冤死我了!(大哭)

如果有理解前面所說的假設檢定的過程，應該會明白：統計只有給你一個參考值(p值)，甚至採用不同方法統計還能給你更多更多不同的參考值，幫助你去判斷「藥有沒有效」、「XXX當選」，但統計就是沒有說過「藥有效」、「XXX會當選」這些事。

會直接把這些當”統計"給的結論是一種讀報告的人自己腦補的結果，但這也不能怪大家，因為一般用來描述統計結果中有幾個其實是隱藏特殊定義的字眼，就直接被錯誤解讀了。

先來看研究報告一般怎麼描述結論：

當研究人員有其他的背景理論去支持”藥有效”，且做實驗得到p值夠小時，他可能在研究裡直接下”藥有效"的結論。這個結論是來自兩邊的：”背景理論知識(文獻探討)”和”資料統計上的參考值”得到的結果。因為統計用機率做底，能提供”背景理論以外”另一方面的證據，所以能做實驗問卷調查的大概都要收集資料用統計來"幫助”證明，其中假設檢定的p值是滿多人會採用的。

如果只說統計部份的結論的話，報告會用類似「藥有效在統計上達”顯著"」或「統計上”不顯著"」來說。應該有些人看過，因為負責一點的寫法，就算寫的人不十分明白原理也會把整句話抄下來。現在來幫大家翻譯這兩句話的意思：

「藥效統計上達顯著」或「用藥前後體重有顯著差異」：指p值夠小，小於研究人員訂的門檻，所以是「統計上有證據推翻藥無效的假設」

這句話寫改版變成「統計上有證據證明藥有效」。

另一種結論，「統計上”不”顯著」或「用藥前後體重"沒有"顯著差異」：指p值沒有小於研究人員訂的門檻值，樣本還不夠極端，所以是「統計上”沒有證據””推翻"藥是無效的假設」。
然後這句話就變成：「統計上”接受"藥無效的假設」 (咦?! 對嗎？偷換概念!!!) 這兩句話是不一樣的：沒有辦法推翻他不代表他是真的。這只是這個研究暫時採用”藥無效"的假設!!

而且，考生注意!!!! 「統計上沒有證據推翻藥是無效的假設」vs 「統計上接受藥無效的假設」這兩句話是個考點，如果是選擇題出現這兩句話，統計老師沒有出錯題目，也不是在跟你玩文字遊戲，他是要知道你對假設檢定的概念有多了解。(而且他也知道：就算你選對了也不代表你了解，只代表”你有了解假設檢定的可能性”比較高。)

不知道看到這裡有人覺得：什麼？這麼辛苦收集資料分析，結果p值偏大，所以得到統計上的結果居然是「沒有證據推翻藥是無效的，而且還不保證藥真的無效」真是個沒用的結論!! (是的…而且這種事發生的還不少，要達顯著沒有那麼容易的，下一篇說說為什麼。)

雖然看起來對這一次的研究得了一個很沒用的結論，但已整個領域來看，經過長期的研究報告，當藥已經被研究很長一段時間也被探討好多次，結果大部份研究團隊做實驗收集資料都做出"統計上不顯著”的結果，那慢慢的就會認為藥沒有效而不再探討了。即使得到看起來很好的”藥有效”的結論也是一樣的，只有一兩篇研究說”藥有效”是不夠的，還是要長時間探討的。

所以說，你是不是能更明白學術界要得到一個共識有多麼不容易？然後也不要因為新聞說一篇最新研究說XXXXXX就把他看得太認真。另外，這裡的藥有效當然只是個想讓人方便了解假設檢定過程的例子，不是研究藥就是這樣，特別是開發新藥、包含副作用什麼的，那有超多的事情要做，細節還是要問專門在做這個領域的。這邊只是想讓大家對非常被常使用的p值和假設檢定的過程有個大概的了解。
再複習一次：
假設檢定的過程：針對問題訂虛無假設 -> 在假設成立下計算p值 -> 以p值做參考你覺得假設對嗎？
「p值」的定義：「在"虛無假設成立"時，出現"這組樣本及更極端樣本”的機率」

然後…因為p值的不易了解，和結果常常讓人不滿意(不顯著)，後來就有了一些問題，而且隨著資料取得越來越容易，計算速度越來越快，問題就越來越嚴重，導致ASA要出來解釋p值是什麼，提醒大家不要再誤用他，不然就用別的替代方案。

(待續…寫了一堆，終於解決最難的部份了，應該不會有比這個更難的概念出現了。)

====統計的日常生活====

不知道有沒有人注意到…統計的世界和一般人內心的小世界主要的差別就是：

統計的世界是機率的世界，但人很喜歡二分法的世界而且是「非黑即白」的世界。

來個小劇場~~

人：統計統計，我懷疑霹靂貓是壞人，你覺得呢？

統計：你要怎麼定義好壞....我們先討論一下....

（經過了一段時間監視調查霹靂貓並分析。）

統計：根據你對好壞的定義，他平均一天中5%的時間做壞事，30%的時間做好事。如果要用假設檢定來看：虛無假設是他是好人，p值為0.1.

人：所以…他是好人。

統計：嗯…他平均一天中5%的時間做壞事，30%的時間做好事。

過兩天聽到霹靂貓酗酒鬧事的八卦…

人：你說錯了，他是壞人。

統計：呃....如過須要可以再做一次研究。不過我是說：他平均一天中5%的時間做壞事，30%的時間做好事。

再過幾天，聽朋友說霹靂貓常常從事公益活動

人：他其實是個好人嘛！

統計：嗯…他平均一天中5%的時間做壞事，30%的時間做好事。

再過幾天，看到霹靂貓在FB上大肆批評台灣。

人：他是壞人！統計果然都是騙人的！

統計：呃....（我沒說他是好人呀.... 還有....你可以不要再鬼打牆了嗎？）

(經過一翻思考後)
統計：人呀……你知道機率嗎？

人：知道呀，氣象預報說今天降雨機率60%。我出門有帶傘。但是氣象預報常常都不準啦....

統計：........
========
統計觀念建立的第一篇：統計二三事~數字背後藏了什麼？
談尊重別的行業：統計二三事~假設檢定(2)電影12怒漢大審判

(繼續閱讀...)

霹靂貓發表在痞客邦留言(2) 人氣()

個人分類：統計二三事

▲top

Jan 21 Sat 2017 12:31
第12篇：都說要做自己、對自己好、愛自己，到底怎麼愛自己？

我之前花了好一翻功夫去想，”愛自己”到底要做什麼？後來終於找到屬於自己的答案。
簡單說，都寫在前面的文章裡了，看明白了之後試著開始和外界正常交流，就是開始愛自己了。

愛自己不是只有外在的：吃幾頓好吃的而已、買幾個好東西給自己、保護自己…

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 21 Sat 2017 11:31
第11篇：「好奇心殺死貓」? 先把國際觀放一邊，你還有好奇心嗎？

好奇心很重要!!!
好奇心很重要!!!

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 20 Fri 2017 04:08
第10篇：這麼多人同情心氾濫，「同情心」好嗎？對於那些無法避免的「討厭」，該怎麼辦？

我常常覺得"可恨之人必有可憐之處"，而可憐人很可能有可恨之處。
如果覺得一個人可恨，通常背後有個可憐的過程 (有個可憐的過程並不表示值得同情)。如果覺得一個人可憐而同情心他，要先想一下他其實不是你想的那麼可憐，可憐他，也不一會給他幫助，甚至可能帶來傷害。
這裡要提一個很多人知道的概念：同理心。
但是我不知道有多少人明確知道同情心(Sympathy)和同理心(Empathy)的差異，請先看解釋很清楚的影片：
https://www.youtube.com/watch?v=9ZSiC59j0ak
同理心的特點：
1.接受他人觀點 2.不加評論 3.看出他人的情緒 4.嘗試交流
我們都學過要「設身處地為別人著想」，
但我們通常把同情心和同理心混在一起了，
同情心是透過自己的小世界，想像有他的經歷，有什麼感受？
同理心是透過”他"的小世界，想像有他的經歷，有什麼感受？
所以同理心的第一點，就是要接受他人的想法，用他人的想法來看。這麼一看，同情心停留在一種比較自私的心態，同理心是和人相處的基礎。
先舉一個真的要"收起不必要同情心"的例子：
http://www.businessweekly.com.tw/article.aspx?id=12684&type=Blog

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 18 Wed 2017 10:24
第8篇：你是個有自信的人嗎？

每個人都會在某些方面有自信，但在某些方面缺乏自信。非常鼓勵大家去發覺自己在哪些點上容易偏激、自大、自卑、容易岐視別人、容易覺得被人歧視，這些大都表示自己在這方面缺乏自信。

對於只是一時被謠言誤導造成的偏見，很容易透過溝通修正。如果很難被修正、有些偏激，那大概有自大和自卑的心理。自大來自無知，自卑來自缺乏自信。而自大的人容易岐視別人，自卑的人容易覺得被人歧視、被忽視。甚至某些人對一些話很敏感，突然有偏激的行為，或一直強調自己的弱勢或優點，都來自「缺乏自信」或「無知」，想讓別人看到自己，證明自己。因為對方陳述事實或單純心情不好所表現出來的行為，就強烈覺得”被歧視”，也是自卑的表現。

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 18 Wed 2017 10:22
第7B篇：歧視不好嗎？怎麼消除歧視？

有時候歧視是還不錯的，例如，學生優惠或保護弱勢的想法，所以也沒人指著大喊，這是歧視、偏見。從這裡出發，會有一些「社會福利」的問題，很值得思考，暫時跳過。先討論到個人身上發生的歧視與被歧視的問題。
岐視來自偏見，偏見的根源是…
「懶」 (這個答案感覺好囧…但就是我的答案沒錯)
懶又不想讓人發現自己無知，懶得認識外界，但想假裝自己知道，然後對外界人事物隨便貼標籤，這就是偏見。
不得不說貼標籤真的是一種不錯很方便省事有效率的作法，我也常常這麼做，畢竟這個世界這麼大，生命有限，我們沒有辦法去接觸所有人事物，所以有偏見存在是有幫助的。
問題是，在貼標籤後，有機會多認識一些人事物時，我們願意進一步認識嗎？如果因為這些標籤拒絕接觸，懶得把標籤拿掉，透過標籤看人，懶得認識新的人事物，懶得修正標籤，懶得....…然後，問題就很大了。
更何況，我們活在這個垃圾爆炸的時代，
毫不自覺被洗腦，
撿回一堆垃圾標籤放腦子裡，
從此透過那些標籤看別人、懶得溝通、懶得更新標籤認識外界、
……..
我只能說：請大家重新思考這整個過程的問題和整個問題的嚴重性。
仔細想想…
傳流言就是發垃圾，讓那些想要大家被洗腦的人得意；
妄下批評或直接漠視別人，放棄溝通放棄了解別人的機會，同樣會增加偏見誤解對立衝突，也是讓那些人得意。
這種傷害整個社會讓極少數人得意的事，是我們現在最不須要的。
我相信能看到這篇文章的人都不是這麼嚴重充滿偏見的人，也因此更想鼓勵大家有機會能告訴親友們，我們已經沒有空搞分裂了，有很多的事要去做，要用來彌補過去幾十年來整個社會因為種種偏見對立，所受到的傷害。
想明白問題的來源，要怎麼消除這種不好的偏見的答案應該就出來了吧？
在我眼裡，一再對小孩們強調不要偏見和岐視，誰是強勢誰是弱勢，誰欺負誰，誰值得同情，還不如直接培養他們對人和對社會和對世界的好奇和關心，不要只用片面的資訊去看所有人事物。
最後，如果說歧視的問題也是自大與自卑的問題，你覺得呢？

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

Jan 18 Wed 2017 10:20
第7A篇：「歧視」是罪嗎？台灣社會有歧視現象嗎？

如果歧視是罪的話，應該是宗教上的觀點：人都是有罪的。不會有國家法律把歧視當做一種罪吧?
然後我必須先下個定義才能討論，不然可能會吵個沒完沒了(定義很重要!!) 如果有專業的看到，請不要計較他的不完整，我的小世界裡這麼定義：
當一個人因為自己的心裡存在偏見的時候，對外表現出某種差別待遇的行為，就是岐視。所以「偏見」是心理，而「岐視」是因為「偏見」產生的差別待遇。
以這種定義來看得到的結論是：
每個人或多或少都會歧視人，而且台灣社會的歧視現象非常非常嚴重！
好險歧視沒有罪，不然我也是罪人…懺悔中。而且學生票這種東西，對辛苦工作的大人們根本是一種歧視啊!!!
很幸運的是(是嗎？)，我們的社會價值觀已經灌輸大家：「岐視是不好的，歧視別人的人有問題」一般人心裡”歧視"是一個強烈的字眼，也不會表現出容易被認為是岐視的行為，或是會用這是一種”偏見”來輕描淡寫。但是以我的定義來看，隱含偏見的行為就是歧視了。
那麼強調這種社會價值觀真的好嗎？我們不要「歧視」就好了，「有偏見」就沒有關係嗎？這真的可以幫助減少歧視嗎？如果可以的話，台灣或美國的歧視有比以前少嗎？
另外，沒有明顯的岐視行為不代表沒有偏見，甚至可能只是因為「社會價值觀」暫時壓抑住一種強大的偏見。例如：從川普當選後，有些人會傳報美國各地種族歧視爆發的行為，想控訴川普的歧視和勝選帶來的影響。但是，一個人怎麼會因為選個總統，就瞬間從不歧視學會歧視？
合理的解讀應該是：一種強大的對不同種族的不滿在過去被壓抑住了，他們在川普當選之後，覺得終於可以將他們的憤怒發泄出來。當然，還有一部份原因可能是，選後大家很敏感，所以有一點歧視的問題就一直報。而這兩種情況好像都說明，很強的偏見一直存在!
對了，有沒有人發現…灌輸大家「岐視是很不好的，歧視別人的人有問題」這種觀念，可能本身就是一種歧視？(笑)

(繼續閱讀...)

霹靂貓發表在痞客邦留言(0) 人氣()

個人分類：我思故我在

▲top

希望更多人用更有邏輯性更深入的方式思考自己感興趣的問題，交流討論。

統計二三事~目標和量測。教改失敗了嗎？總是覺得新政策不好？

台灣特有評價系統~教改 (教育有問題真的是因為教改嗎？)

台灣特有評價系統~效率(草稿)

第9篇：異國長期生活，改變了你的哪些”是非觀”？

統計二三事~假設檢定(2)電影12怒漢大審判

統計二三事~假設檢定(1)概念(這一系列，不了解統計的請進)

第12篇：都說要做自己、對自己好、愛自己，到底怎麼愛自己？

第11篇：「好奇心殺死貓」? 先把國際觀放一邊，你還有好奇心嗎？

第10篇：這麼多人同情心氾濫，「同情心」好嗎？對於那些無法避免的「討厭」，該怎麼辦？

第8篇：你是個有自信的人嗎？

第7B篇：歧視不好嗎？怎麼消除歧視？

第7A篇：「歧視」是罪嗎？台灣社會有歧視現象嗎？

參觀人氣

希望更多人用更有邏輯性更深入的方式思考自己感興趣的問題，交流討論。

參觀人氣

成人內容提醒