數字背後藏了什麼」裡,先提了對一個統計數字的解讀,整個來龍去脈和背景知識的重要。
現在來看看一些所謂的「數字的陷阱」,有一部份是因為一般人對方法特性不熟悉而產生。
 
這邊先提幾個常用的統計量。
[統計量(statistic)是指對資料做任何的運算或轉換得到的數字。]
統計量就是一種濃縮原始資料某些訊息後的數字,因為直接讀原始資料太多太雜了,而統計量是整理過的訊息。
 
例如:對某個行業的員工,要了解這個他們的待遇如何,我們可以收集了100個人的薪水資料來幫助了解。但是單看這100個觀察值很費事,所以我們可以計算”薪水的平均數”,其實平均數是描述這個資料分布情況的「中心位置」,這個數字濃縮了100個薪水的資訊。另外,也可以用別的統計量,例如薪水的中位數,來描述資料的中心位置。
 
描述中心位置,除了平均數(mean),還有加權平均、去頭去尾平均、中位數、眾數...等等....
 
再來要描述分布,除了關心中心位置,可能還會關心「離散(分散)程度」。
離散程度有很多統計量可以用:變異數(variance)、標準差、四分位距(IQR)、全距(Range)、...
 
如果想要盡量保留所有資料的訊息,盡可能完整描述一個薪水分布的樣子,用圖可能更好,
常用的圖有:莖葉圖、直方圖、箱形圖、長條圖...
 
即使對統計只有最粗淺的接觸,我們都會發現,針對一個目標或問題(中心、或離散、或整個分部),都有好幾種方法可以用。
而學統計時有一個重點,就是知道這些方法的特性(優缺點),了解什麼時候用什麼方式可能比較好,用了這個方法可能會有什麼問題。
 
「沒有一個方法在任何情況下都是最好的」
針對一個問題或目的,學習或研究一個方法時,如果沒有發覺它的缺點,那就對問題和方法了解還不夠。而且通常要比較兩種以上的方法,才容易看出各自的特色。只注意一種方法反而常常讓人搞不輕楚問題出在哪裡。這裡說的方法不是只限於統計裡的,還包含生活上的。
 
回到薪水的例子裡,直接把100個觀察值畫成圖資訊最完整,但是圖很佔板面,所以在很多時候報告裡採用更精簡的作法:放平均數和標準差就好了,其實知道資料中心位置和離散程度,也就夠了。但這種作法有時候有點瑕疵,看看平均數的問題:
 
平均數最大的的優點就是「簡單好算」,而且融合了所有觀察值,所以被廣泛使用,久而久之,大家動不動都會想到它。但其實要描述薪水分布的中心位置時,平均數並不合適,中位數更好些。因為薪水的分布一般拖著一個長長的尾巴:一般人薪水集中在中低位置,然後有一些人的薪水特別高。而事實上,一個偏斜、不對稱、有極端值的情況,用平均數來描述它的中心位置並不是那麼理想。
 
平均數的優點是考慮了所有觀察值,因此產生的最大弱點就是受”極端值”影響很大,而這正是中位數的優勢。
[中位數(median)就是,有一半的觀察值會比它大,有一半的觀察值會比它小。]

用另一種方式想,下次如果看到「某某工作平均月薪五萬」的描述,你心裡可以有個底:薪水的平均數被尾巴拉高了,中位數比平均數低,這也意謂著這個工作有一半以上的人月薪比五萬還低,這樣看有沒有覺得「平均月薪五萬」給你的感覺不太一樣了?

[有個東西叫偏度(skewness),用來描述分布偏斜情況和對稱性。更基礎的課程裡,至少都會提到"左偏"或"右偏"的分布(左或右是看尾巴長在哪邊命名的),然後考平均數和中位數在這兩種情況下的大小關係。薪水的例子就是讓大家看看具體的、生活上來看這是怎麼回事。]
 
而有些資料分布有雙峰,單一個平均數或中位數來描述資料中心可能也不恰當了,通常去了解形成雙峰的原因會成為第一個重點。例如:PM2.5受風的影響很大,很可能會有風時或沒風時的差異很大,如果不考慮風的影響而把所有量測質混在一起看,就可能出現雙峰。這時候能針對「有風」或「沒風」的情況分別做描述探討。

而像一些空污濃度,一日內隨著時間變化有一個波動,這時候單純的「日平均值」可能不足矣表現污染的問題,所以有些研究要去看每日中「最大的連續八小時平均」之類的統計量。

最後,要計算什麼樣的統計量,除了資料本身的特性,還是要回到「問題和核心目的」來決定的,如果只是要描述一般污染物的概況,用月平均值可能就夠了,但是如果要了解污染物嚴重程度,就要去想怎樣的統計量更符合須求。
 
而身為讀者,在閱讀別人提供的數字並對數字做解讀時,稍微想一下:
這個數字有沒有可能在什麼情況下會「失去意義」?或是「被扭曲」?
作者有沒有把一些條件做補述?有沒有可能「過度推測」?
同樣的數字交給你或其他人,有沒有可能做出第二種解讀?
 
====統計的日常生活====
統計的世界所有方法都有特點,缺點與優點是相伴相生的,只是要選擇一個較合適的方法,並知道方法的缺失。
人的世界常常盲目複製別人,以為別人選的或是多數人選的就是好方法,卻忘了雖然可以找到"類似的範本",但是很多問題雖有它的獨特性,就如同人性大約就是那麼回事,但每個人又都是獨一無二的存在。

來個小劇場:
 
人:太好了!六都要在規劃捷運了!
統計:你確定所有城市都適合蓋捷運嗎?
人:有什麼好不適合的?捷運多方便。
統計:捷運只是方法而已,他是為了什麼問題存在的?
人:當然是解決交通問題呀!
統計:解決交通問題的方法有哪些?
人:........
統計:各有什麼優缺點?
人:.......
統計:你都答不上來的話,跟人家瞎起什麼哄?
人:什麼時候輪到你教訓我了!!!!!!
統計:.......我的意思是,如果你關心這個問題,可以稍微了解相關問題:蓋捷運要多少時間多少錢多少成本?客流量要多大才不會入不敷出?多大的城市規模才用得到MRT?還有別的方式能解決中小型程市的交通問題嗎?如果規模不夠大只有兩條MRT線其他地區怎麼辦?你也不希望就看到捷運站附近狂炒房,其他區域自生自滅吧?
 
有一篇文章是姐妹篇,請看:台灣特有評價系統~捷運MRT
文章標籤
全站熱搜
創作者介紹
創作者 霹靂貓 的頭像
霹靂貓

生活統計二三事

霹靂貓 發表在 痞客邦 留言(0) 人氣(334)