親友看到有關資料分析的文章覺得有點怪就轉給我看:
文章主要分析了一組數據,想說明這是假數據(某政府又再次造假了!)。
看完後我只能說:這文章沒法證明某政府的數據有多假,倒成了典型的「科學和統計知識不足下的分析評論」。
論點一大概是說:
死亡率太穩定,所以數據是假的。仔細看會發現,這個穩定跟大數法則的穩定不是一回事嗎?(他挑的時間點樣本數都在7000以上了)。作者當然沒有提到大數法則,但真數據依大數法則也是這樣的穩定。
依該文章的邏輯:數據符合大數法則所以數據是假的 (!!!!???? WTF!!! 照這邏輯所有研究都不用做了...)
論點二大概是說:
因為這個數據可以很簡單用一個model解釋,R squared是0.9995,所以是假的。(註:19個樣本點,用三次式建模)
如果R squared高就說是假數據,照這邏輯什麼model都不用做了。
高R squared考慮Poisson分布高Rate是有可能出現的:參考:認識Poisson。
我不知道怎麼單用一組數據去證數據本身是假的。一般都是從資料來源、收集方法下去評估資料本身可能的問題,但也很難用這些問題就說數據是假的。有些情況會有別的實驗室重複實驗去看有沒有辦法得到同樣的結論來判斷論文造假,不是隨便分析兩三下就能說數據是假的。
在我眼裡,這數據來源自某政府這件事,遠比文章裡的兩個論點有更強的說服力去說資料有假。
最後,明明不懂資料分析卻愛分析、愛評論,連帶誤導大眾,整個社會的科學邏輯思惟都會被破壞了----這樣的台灣太讓人憂心了。
請先 登入 以發表留言。