統計二三事~數字的陷阱: 樣本數的影響(相關係數)－生活統計二三事

在看統計數字或一些統計量的時候，很多人不知道：樣本數有時候有很大的影響。

根據想探討的問題看有多少受測者或觀察值，樣本數越多時資訊量應該越豐富，當然也可能有更多雜訊。(先假設樣本是有代表性、不偏的。什麼是有偏的樣本可以先試著了解知名邏輯錯誤：倖存者偏差。如何抽有代表性的樣本，可以查詢抽樣方法。)

很多統計量的判斷會直接受到樣本數的影響，而且這其實是很符合人們直覺的事。
最簡單的例子是還是看擲硬幣吧：如果我今天要猜一枚硬幣出現正面的機率是多少，我擲了10次 (樣本數為10)，有8次出現正面，我會覺得這枚硬幣出現正面的機率是0.8左右，但也很有可能是0.6、0.7或0.9。但如果我擲了1000次 (樣本數為1000)，有800次出現正面，我會更相信出現正面的機率是0.8 而不是0.7或0.9。
[這是統計學課會告訴你的：樣本數越大，樣本平均的標準誤越小。]

另一種樣本數的影響是反應在理解一些統計數字的強弱上。

例如：在衡量兩變數之間關聯性時，第一個接觸到的相關係數(Correlation Coefficient)，皮爾森相關係數(Pearson's r)，是用來衡量兩變數之間「線性」關聯強度。
所謂「線性」關聯強度，是用來看兩個變數(例如身體和體重)，有沒有同時變大或同時變小的傾向，還有這個傾向有多強。
這個係數範圍在1和-1之間，接近1或-1表示有很強的正相關或負相關，如果接近0，則代表無強烈相關。有興趣的人仔細看相關係數的公式很容易看出為什麼，這裡就不放公式上來嚇人了。

以下圖為例，可以把橫軸想像成身高，縱軸想象成體重，如果圖上的點越接近一直線，就是相關係數越接近1，反方向的直線(左上到右下的直線)就是-1。
Screen Shot 2017-03-01 at 4.22.28 PM.png

上圖中的100個觀察值如果去計算相關係數，是0.8。

如果有書本或老師告訴你：這個相關係數多少多少代表強、中、弱相關，請一定要知道這是一個非常非常非常不適當的說法，最好把這個規則忘掉。
再次強調：很多統計量只是參考值，他的強弱不是只有這個值就能看出來的，甚至有一些會直接受到樣本數大小的影響。
看看下面兩張圖你可能就會明白發生了什麼事：
Screen Shot 2017-03-01 at 4.20.09 PM.png

Screen Shot 2017-03-01 at 4.20.09 PM.png

Screen Shot 2017-03-01 at 4.20.21 PM.png

相信大部份人都會覺得第二張圖有更明顯的表現出正相關 (當x越大時y也傾向較大)。
但是如果去計算相關係數：第一張圖的20個觀察值是0.5，第二張圖的200個觀察值卻只有0.45。
而且第一張圖裡，如果把左下角那一點消失或是稍微往中間移，會不會覺得線性關聯的強度就變很弱了？
再用一個更極端的例子，如果樣本數小到只剩2，圖面上就只有兩個點。平面上兩個點本來就可以形成一直線，相關係數一定是1或-1....顯然這時候看相關係數沒什麼意義。

樣本數小時，觀察值的一點點變化就會造成相關係數大幅的變化；而樣本數大時，相關係數的絕對值容易偏小。

在不知道樣本數的情況下，如果隨便訂下相關係數0.5就叫中度相關的規則，還真的很奇怪。樣本數會嚴重影響這個規則的運作。

最後，假設檢定的p值也有這個現象，任何檢定如果不考慮樣本數，都只用「p值小於0.05就是統計上顯著」來判斷也是沒有道理的。

如果有上過統計學的課，應該會聽過一句話「當樣本數越大的時候，越容易去拒絕虛無假設」的說法，就是因為樣本數越大，越容易得到較小的p值。原因就留到討論假設檢定時再說吧！

PS1 假設檢定的p值不知道的可以先看到，假設檢定的概念，至於p值更多的問題或特性…等我慢慢寫吧。
PS2 相關係數受到樣本數的影響，用另外一個方式看，這是「自由度」的重要性的一個特例。

統計

霹靂貓

生活統計二三事

霹靂貓發表在痞客邦留言(2) 人氣()

E-mail轉寄

生活統計二三事

希望更多人用更有邏輯性更深入的方式思考自己感興趣的問題，交流討論。

統計二三事~數字的陷阱: 樣本數的影響(相關係數)

留言列表

站方公告

我的好友

熱門文章

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

活動快報

夏普水...

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

文章分類

胡思亂想 (2)

資料科學記實 (3)