close

親友看到有關資料分析的文章覺得有點怪就轉給我看:
文章主要分析了一組數據,想說明這是假數據(某政府又再次造假了!)。
看完後我只能說:這文章沒法證明某政府的數據有多假,倒成了典型的「科學和統計知識不足下的分析評論」。

論點一大概是說:
死亡率太穩定,所以數據是假的。仔細看會發現,這個穩定跟大數法則的穩定不是一回事嗎?(他挑的時間點樣本數都在7000以上了)。作者當然沒有提到大數法則,但真數據依大數法則也是這樣的穩定。
依該文章的邏輯:數據符合大數法則所以數據是假的 (!!!!???? WTF!!! 照這邏輯所有研究都不用做了...)

論點二大概是說:
因為這個數據可以很簡單用一個model解釋,R squared是0.9995,所以是假的。(註:19個樣本點,用三次式建模)
如果R squared高就說是假數據,照這邏輯什麼model都不用做了。

有一些情況是可能有很高的R squared。大家可以試著隨便找一把硬幣丟,記錄正面的個數,重複做幾次,把人頭面的累積次數記下來,然後把累積的正面數和次數做圖,那基本上就是個直線,累積正面數越高線看起來越直。現在這種累積事件數更像工廠一天生出多少產品、有多少是不良品,開多少生產線就有多少不良品,如果用不良品每天累積量去對天數建模,R squared也很高,這是Poisson的特性,它和一般常用的常態變數有本質上的不同。我個人猜想:初期因為醫療設備的不足,每天能增加投入的設備人力,直接反應在確診人數的增加率上,而每天能增加的設備人力、應該是有限的,這樣穩定遞增產生的平滑曲線,又收集到這樣大量的樣本在...有很奇怪嗎?

高R squared考慮Poisson分布高Rate是有可能出現的:參考:認識Poisson
 
另外,一般個人能看到的都是小數據,所以感覺變異會很大,而關聯性很強的現象,早就被發現證實了,不太會成為需要研究的問題,會有疑問的多是有變異較大的情況,所以一般研究R squared高確實會讓人有所疑問,但不會說R squared高就說是假數據,R squared只是眾多參考之一,因為小樣本本身的資料就是較容易出現大好或大壞的結果。
 

我不知道怎麼單用一組數據去證數據本身是假的。一般都是從資料來源、收集方法下去評估資料本身可能的問題,但也很難用這些問題就說數據是假的。有些情況會有別的實驗室重複實驗去看有沒有辦法得到同樣的結論來判斷論文造假,不是隨便分析兩三下就能說數據是假的。

在我眼裡,這數據來源自某政府這件事,遠比文章裡的兩個論點有更強的說服力去說資料有假。

最後,明明不懂資料分析卻愛分析、愛評論,連帶誤導大眾,整個社會的科學邏輯思惟都會被破壞了----這樣的台灣太讓人憂心了。

arrow
arrow
    文章標籤
    統計
    全站熱搜
    創作者介紹
    創作者 霹靂貓 的頭像
    霹靂貓

    生活統計二三事

    霹靂貓 發表在 痞客邦 留言(0) 人氣()