一般在衡量資料的中心位置後,緊接著要衡量離散程度。離散程度就是指觀察值間的差異有多大。但為什麼要看離散程度?
 
這麼說吧....如果收集到的資料觀察值,沒有差異、或著說沒有「變異」,就沒有統計的事了!!!!
 
在統計的立場,我們是很期待看到變異的:有變異,才有訊息,才有值得探討的空間。試想一下:如果這個世界上所有人都是170公分、如果世界上每個人長得都一樣、如果每個人唱歌都很好聽、如果對一個政策所有人都支持、…...那就不會有身高藥、顏值、歌唱比賽、還有各種研究的事了。
 
再看身高的例子:台灣成年女性的身高,大約是160公分附近,而且一般女性身高不會是100公分,也不會是200公分,這是台灣女性”共同"的特性;但是,雖然都在160公分附近,就是有人會長得比較高,也有人比較矮,每個人的身高都不太一樣,這是每個人的”差異”,接著就有探討睡眠、運動、飲食如何造成差異等有趣的問題了。
 
如果說平均數(中心位置)描述的是”同”,那變異數(離散程度)描述的是”異”,有同有異,才會引起人們的興趣,才有各種問題研究。
 
衡量資料的「離散」程度,有幾種方式,但這裡主要講變異數和標準差。
下圖底下是數線,數線上的小標記是觀察到的20個資料,中間綠色線是這組數據的平均值所在。而藍色的線就是觀察值到平均數的距離,這些藍色線的平均長度就是表現離散程度的一種方式,也是變異數和標準差想衡量的東西。

Screen Shot 2017-03-01 at 11.19.28 PM.png


[標準差(standard devision)是變異數開個根號。
而變異數(variance)是對所有資料和平均數的距離平方再取平均。(藍線長度平方的平均)]
 
有朋友問:它們兩個都衡量資料的離散程度,有什麼不同的意義嗎?
有,雖然公式上只差一個根號,但是兩個都有重要的用途,所以同時並存。
標準差(常用代號sd)是一種類似平均距離的概念,實務上的理解更容易,單位和原始資料相同。
而一般講"變異數",大陸稱它"方差",則是”距離平方”的概念,他有數理上證明的優勢,計算推導數理性質容易,而把它開個根號的sd問題很大。數理上的證明,是沒有計算機和電腦可以用的,容易推導和計算真的是個讓人感動的優勢。這也是為什麼在衡量離散程度和衡量距離的時候,會選擇平方再開跟號,而不喜歡取絕對值,絕對值在推導證明時也是個特麻煩的東西。
 
一般人第一次與自由度親密接觸,就是在學標準差和變異數的公式的時候。因為看到他的公式時會有一個繞不開的問題:為什麼樣本變異數(sample variance)和樣本標準差(sample sd)在取平均的時候,使用的分母是n-1,而不是n?

然後有人告訴你:這叫「自由度」。自由度的存在在這時候是不容易解釋重要性的,所以大部份知道有這個名字就過了。只有繼續學習一些統計方法時,會發現好多推論、假設檢定的過程,他都佔了一個小角落。在這裡介紹我自己的體會,先讓大家感受一下自由度。
 
舉個小例子:X1, X2, X3是三個不知道的數字,可能是任何數字。但是當我們知道"這三個數的平均是10”時,只要知道其中兩個數字,剩下那一個就知道了,所以只剩兩個是”自由”的。這就是自由度從3變2的過程。如果我又多加一個限制:”最大最小值差10”,自由度就只剩1了。所以說"估計平均數後,就用掉一個自由度",更廣泛一點的說法是"每增加了一個限制式(或多估一個參數)",就用掉一個自由度。
 
[自由度(degree of freedom),常用代號df:指當以樣本的統計量來估計總體的參數時, 樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。]
 
[先補一段必備的統計知識、幾個常用的名詞介紹:
母體(population),是指研究者感興趣的研究對象。
樣本(sample),是從母體中”隨機"抽取的個體。因為母體太大了沒辦法全部調查,耗財費力曠時,所以用一些方法,抽出來觀察的對象,利用樣本來猜測母體狀況。
參數(parameter),是描述母體特性的值,例如母體平均、母體標準差,一般是未知的。
統計量(statistic),是描述樣本特性的值,由觀察值計算得到的,一般用來幫助推測母體狀況,例如樣本平均、樣本標準差…]
 
變異數和標準差基本上想法就是去算出每個資料點到中心位置的距離”平均"是多少。問題就出在:「真正的”母體平均”是未知的」,必須先算樣本平均數,用樣本平均來估母體平均,然後才能算點觀察值到樣本平均之間的距離,在估計母體平均的這個過程,就是對原本自由的n個觀察值加了一個限制,自由度就少了一個了。
 
所以,當母體平圴數是已知時,計算樣本變異數或標準差的分母就是n,因為沒有先用樣本平均數來估母體平均。但這種情況一般只出現在考試裡,考學生知不知道什麼時候用n,什麼時候用n-1。然後,可能有人批評這種題目在實務上沒有意義,但是對於理論和觀念的理解是有意義的,但如果只是為了應付考試,把它濃縮成”母體標準差的分母是n,樣本標準差的分母是n-1”之後,就看不到他的意義了,而且更正確的說法是"知道母體平均時分母是n,不知道要先用樣本平均估的話,分母就是n-1"。
 
施工中: 統計二三事~自由度的重要:關於建模
====統計與生活====
統計的世界是「尋求共同之處,重視不同的意見」。
人的世界是跟自己不一樣的就是異已,卻忘了即使是陌生人,和自己總有某些共同點。

沒有小劇場,但是可以看個小廣告:
撕下不必要的標籤,丹麥國營電視台行象廣告
「那些能串起你我的共同點,或許比我們想像的還多。」
 
arrow
arrow
    文章標籤
    統計
    全站熱搜
    創作者介紹
    創作者 霹靂貓 的頭像
    霹靂貓

    生活統計二三事

    霹靂貓 發表在 痞客邦 留言(0) 人氣()