目前分類:統計二三事 (13)

瀏覽方式: 標題列表 簡短摘要
回填、修正資料是很正常的,並不是修改資料就是造假美化數據。因為不是所有量測都像填個網路問卷調查直接匯整成很好的資料格式直接分析,生物化學很多實驗做完要等樣本分析結果出來要時間,(也不是只等一台儀器出結果而已),匯整輸入資料複查確認修正也要處理時間。
理想上我也希望資料齊全確認無誤後才開始分析。但有些問題就是分析時才容易看到,這時就是要讓登錄整理資料的人回去查原始檔案,有時候是樣本的結果就這樣,偶爾會發現有錯要改。好像很多人覺得回去改資料有問題,但是錯了不改怎麼辦呀?
像新名詞「校正回歸」這種回溯確診病例甚至都稱不上修改資料,就是補齊資料而已。一般會先訂好以哪個時間點為準,例如就依照檢驗時間計算,要等幾天才會知道今天的結果。塞車的情況下,時間差會越拉越大。這跟一些即時監控分析的情況完全不一樣。因為處理過程時間差的關係,很難有正確的即時病例數,當天想知道的即時病例數要事後才能整理出,但事後就只要研究累積數病例和累積治數癒就夠了。
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()


新病毒出來後,一天到晚在報確診人數增加其實很無趣,畢竟確診人數會先反應測試速度,而且不管政府做不做假,確診人數和真實病毒散布情況永遠有個難已研究的差距,使確診人數成為乍看有意義其實信息不多的數據。這種時候,像影片中的模擬研究對我們認識問題更有幫助。


下面影片可開中文字幕:這樣的模擬,雖然不會跟我們說這次的病毒怎麼散布、防治的成效如何,但確更好幫助我們對各種傳染病散布和人類採取措施的關係有了解。是一個很好的模擬研究的例子,不須要太多的背景知識應該都能了解。

文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

這週組裡討論了一下Data scientist和我們Statistician的差別。
 
網路上常用一張圖來描述Data scientist,但我對它有點意見。
那張圖能用來描述資料科學須具備1.程式設計2.統計數學3.相關領域知識,但還讓機器學習和統計的關係變得很詭異。
 
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

之前幫忙臨床實驗時遇到一個很有趣的問題:要估算要開多少site收病人,才能在合理的時間內達到需要的病人數(當然這也跟經費有關)。
 
這種事單位時間內能收到的病人數是一種poisson過程,單位時間內病人數會是poisson分布,如果倒過來想看要收1000個人要多久,那一般等待時間是從幾何分布。關鍵的參數是Rate:單位時間內能收到病人數。這大約是基礎的統計學課會介紹到的。
 
當時我就看到一組資料有大約累積半年收到病人數的情況,大約是下圖的感覺:(假設開了五個site)
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

親友看到有關資料分析的文章覺得有點怪就轉給我看:
文章主要分析了一組數據,想說明這是假數據(某政府又再次造假了!)。
看完後我只能說:這文章沒法證明某政府的數據有多假,倒成了典型的「科學和統計知識不足下的分析評論」。

論點一大概是說:
死亡率太穩定,所以數據是假的。仔細看會發現,這個穩定跟大數法則的穩定不是一回事嗎?(他挑的時間點樣本數都在7000以上了)。作者當然沒有提到大數法則,但真數據依大數法則也是這樣的穩定。

文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

「倖存者偏差(Survivorship bias)」是一種邏輯陷阱,先介紹一個小有名的故事:
 
二戰期間,對於「戰機應該如何加強防護,才能降低被炮火擊落的機率」的問題美軍開起了調查,一種很簡單的想法:戰機上哪裡彈痕多就表示被擊中的機率大,應該加強防護,而資料裡機翼的彈孔多於機尾的。但統計學家沃德力指出更應該注意彈痕少的部位,因為那些部位被擊中的戰機,樣本只有來自返航的---機尾的彈孔少不是因為不容易中彈,而是中了彈的就回不來了,應該加強機尾。
 
忽略了那些不容易看到的情況進行推論,就容易犯下「倖存者偏差」。
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

在看統計數字或一些統計量的時候,很多人不知道:樣本數有時候有很大的影響。
 
根據想探討的問題看有多少受測者或觀察值,樣本數越多時資訊量應該越豐富,當然也可能有更多雜訊。(先假設樣本是有代表性、不偏的。什麼是有偏的樣本可以先試著了解知名邏輯錯誤:倖存者偏差。如何抽有代表性的樣本,可以查詢抽樣方法。)
 
很多統計量的判斷會直接受到樣本數的影響,而且這其實是很符合人們直覺的事。
文章標籤

霹靂貓 發表在 痞客邦 留言(2) 人氣()

一般在衡量資料的中心位置後,緊接著要衡量離散程度。離散程度就是指觀察值間的差異有多大。但為什麼要看離散程度?
 
這麼說吧....如果收集到的資料觀察值,沒有差異、或著說沒有「變異」,就沒有統計的事了!!!!
 
在統計的立場,我們是很期待看到變異的:有變異,才有訊息,才有值得探討的空間。試想一下:如果這個世界上所有人都是170公分、如果世界上每個人長得都一樣、如果每個人唱歌都很好聽、如果對一個政策所有人都支持、…...那就不會有身高藥、顏值、歌唱比賽、還有各種研究的事了。
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

數字背後藏了什麼」裡,先提了對一個統計數字的解讀,整個來龍去脈和背景知識的重要。
現在來看看一些所謂的「數字的陷阱」,有一部份是因為一般人對方法特性不熟悉而產生。
 
這邊先提幾個常用的統計量。
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

在一個研究裡,常常最後就看到一堆統計數字舉證,然後就可以下結論了,但是到底統計是什麼時候牽連進來的?
 
很多讀者只看到最後的數字,或是以為文章裡”據統計…”的那一段裡才是統計做的事。但卻不知道,為了真正讀出最後那幾個數字的意思,有多少背景是要先學習的。
 
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

所謂的"量化"研究有多重要?其實就跟考試有多重要差不多。

考試這個東西,就是統計上的一種量化、量測方法。學習情況、學習能力這些東西是抽象的,沒有工具量測,所以我們用"考試"來幫助了解小孩子的學習情況,例如針對數學能力,得到的數學成績,就是小孩子的數學能力的量化。而一般研究比較抽象議題的時候,我們靠問卷,問卷的作用跟考卷是差不多的。這種量化值可以用來幫助個體了解自己的狀況,也可以幫助研究者了解整個群體的情況。
 
但真正在做量化研究時,題目設計非常重要,要能夠問出研究者所關心的事。一般新設計的問卷是要先測試的,就是設計完要試用看看,題目清不清楚?會不會有”誘導”答案的現象?有沒有辦法真的量到我們所關心的問題?填問卷的人有沒有亂答?......總之,把抽象概念定義清楚到量化的過程也是一門學問,問卷設計和實驗設計都很重要。
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

在有假設檢定的基本概念下,這一篇沒有難度 YA~   如果沒概念,建議先回第一篇
 
先複習一下假設檢定的過程:
針對問題訂虛無假設,然後計算虛無假設成立下抽到這組樣本的機率(p值),以p值做參考,看虛無假設成立嗎?
 
文章標籤

霹靂貓 發表在 痞客邦 留言(0) 人氣()

起因是去年美國統計學會(ASA)因為某統計方法被濫用的太嚴重了,所以發了些聲明。
有幾篇文章在介紹,但對沒念過統計的人有點深,但都有幾個很重要的點,我嘗試用白話一點的方式講,希望減少大家對統計的錯誤印象。統計出錯騙人的,大多都是解讀的過程產生的誤會,或是因為”人”沒有按照一定規則進行分析。在說這些問題前,有些必須先介紹的。
 
統計二三事(1)~這裡簡單說明基本的概念~寫給沒學過統計的人看的~
 
文章標籤

霹靂貓 發表在 痞客邦 留言(2) 人氣()