在看統計數字或一些統計量的時候,很多人不知道:樣本數有時候有很大的影響。
 
根據想探討的問題看有多少受測者或觀察值,樣本數越多時資訊量應該越豐富,當然也可能有更多雜訊。(先假設樣本是有代表性、不偏的。什麼是有偏的樣本可以先試著了解知名邏輯錯誤:倖存者偏差。如何抽有代表性的樣本,可以查詢抽樣方法。)
 
很多統計量的判斷會直接受到樣本數的影響,而且這其實是很符合人們直覺的事。
最簡單的例子是還是看擲硬幣吧:如果我今天要猜一枚硬幣出現正面的機率是多少,我擲了10次 (樣本數為10),有8次出現正面,我會覺得這枚硬幣出現正面的機率是0.8左右,但也很有可能是0.6、0.7或0.9。但如果我擲了1000次 (樣本數為1000),有800次出現正面,我會更相信出現正面的機率是0.8 而不是0.7或0.9。
[這是統計學課會告訴你的:樣本數越大,樣本平均的標準誤越小。]
 
另一種樣本數的影響是反應在理解一些統計數字的強弱上。
例如:在衡量兩變數之間關聯性時,第一個接觸到的相關係數(Correlation Coefficient),皮爾森相關係數(Pearson's r),是用來衡量兩變數之間「線性」關聯強度。
所謂「線性」關聯強度,是用來看兩個變數(例如身體和體重),有沒有同時變大或同時變小的傾向,還有這個傾向有多強。
這個係數範圍在1和-1之間,接近1或-1表示有很強的正相關或負相關,如果接近0,則代表無強烈相關。有興趣的人仔細看相關係數的公式很容易看出為什麼,這裡就不放公式上來嚇人了。
以下圖為例,可以把橫軸想像成身高,縱軸想象成體重,如果圖上的點越接近一直線,就是相關係數越接近1,反方向的直線(左上到右下的直線)就是-1。
Screen Shot 2017-03-01 at 4.22.28 PM.png
上圖中的100個觀察值如果去計算相關係數,是0.8。
 
如果有書本或老師告訴你:這個相關係數多少多少代表強、中、弱相關,請一定要知道這是一個非常非常非常不適當的說法,最好把這個規則忘掉。
再次強調:很多統計量只是參考值,他的強弱不是只有這個值就能看出來的,甚至有一些會直接受到樣本數大小的影響。
看看下面兩張圖你可能就會明白發生了什麼事:
Screen Shot 2017-03-01 at 4.20.09 PM.png

Screen Shot 2017-03-01 at 4.20.21 PM.png

相信大部份人都會覺得第二張圖有更明顯的表現出正相關 (當x越大時y也傾向較大)。
但是如果去計算相關係數:第一張圖的20個觀察值是0.5,第二張圖的200個觀察值卻只有0.45。
而且第一張圖裡,如果把左下角那一點消失或是稍微往中間移,會不會覺得線性關聯的強度就變很弱了?
再用一個更極端的例子,如果樣本數小到只剩2,圖面上就只有兩個點。平面上兩個點本來就可以形成一直線,相關係數一定是1或-1....顯然這時候看相關係數沒什麼意義。
 
樣本數小時,觀察值的一點點變化就會造成相關係數大幅的變化;而樣本數大時,相關係數的絕對值容易偏小。

在不知道樣本數的情況下,如果隨便訂下相關係數0.5就叫中度相關的規則,還真的很奇怪。樣本數會嚴重影響這個規則的運作。
 
最後,假設檢定的p值也有這個現象,任何檢定如果不考慮樣本數,都只用「p值小於0.05就是統計上顯著」來判斷也是沒有道理的。
如果有上過統計學的課,應該會聽過一句話「當樣本數越大的時候,越容易去拒絕虛無假設」的說法,就是因為樣本數越大,越容易得到較小的p值。原因就留到討論假設檢定時再說吧!

PS1 假設檢定的p值不知道的可以先看到,假設檢定的概念,至於p值更多的問題或特性…等我慢慢寫吧。
PS2 相關係數受到樣本數的影響,用另外一個方式看,這是「自由度」的重要性的一個特例。
arrow
arrow
    文章標籤
    統計
    全站熱搜
    創作者介紹
    創作者 霹靂貓 的頭像
    霹靂貓

    生活統計二三事

    霹靂貓 發表在 痞客邦 留言(2) 人氣()