之前幫忙臨床實驗時遇到一個很有趣的問題:要估算要開多少site收病人,才能在合理的時間內達到需要的病人數(當然這也跟經費有關)。
 
這種事單位時間內能收到的病人數是一種poisson過程,單位時間內病人數會是poisson分布,如果倒過來想看要收1000個人要多久,那一般等待時間是從幾何分布。關鍵的參數是Rate:單位時間內能收到病人數。這大約是基礎的統計學課會介紹到的。
 
當時我就看到一組資料有大約累積半年收到病人數的情況,大約是下圖的感覺:(假設開了五個site)
(a) 每一個site每個月收到的病人數
(b) 每一個site每個月收到的累積病人數
(c) 所有site每個月收到的病人數
(d) 所有site每個月收到的累積病人數

Rplot1.png

 
圖(d)是不是很驚人...第一次看到時我也愣了一下...根本一直線!!! 如果拿圖(d)的累積病人數對時間做分析,R squared 隨便都超過99%。如果多開幾個site,總Rate越大,整個累積病人數對時間相關性可達到99.9%。
 
 
當時還遇到的問題是:所有site沒法同時開,美國的半年內全可以全開,但是其他國家的site最快要等個半年才會開始,希望一年多內能把全部site都開滿。這次假設開了20個site,一個月增一個site,且每個site本身能收病人的速度(Rate)都不一樣。

 

Rplot2.png

圖(d)就成了完美的二次式曲線....R squared 隨便都達99.9%。一旦site開滿了,沒有再新增,後面就會成直線了...
 
其實poisson過程出來的變數和一般常假設常態分布有很大的不同。常態分布的性是中心位置(平均數)和離散程度(標準差)是互不相干的。但是poisson的平均數就是Rate,而他的標準差和Rate是有關的:標準差是Rate開根號,也就是平均數1時標準差為1,但平均數是100時,標準差只有10。平均數是10000時,標準差只有100。Rate越大,累積病人數資料越穩定。像Poisson這樣的變數,只要掌握一個參數Rate,最多考慮一下Rate隨時間變化,然後整個curve就出來了。


PS 因為不方便隨便公開別人的數據,所以資料是模擬出的數據,但基本上現象是一樣的。不信的話可以在家找一把硬幣來丟每天丟一把(或隨便弄個彩球色紙來抽每天抽一把),每天
記錄正面(或有色)的個數,把累積次數記下,過幾天那圖就會越來越直,累積數越高線看起來越直。這是Poisson和二項分配的關聯性:把單位時間當成一分鐘,那每一分有沒有病人進來就是一個白努力實驗(丟硬幣實驗)。那一天的收到的人數大約是rate*1440,二項分布Bin(rate, 1440),最後就看累積正面數和第幾天實驗做圖。
 
創作者介紹
創作者 生活統計二三事 的頭像
霹靂貓

生活統計二三事

霹靂貓 發表在 痞客邦 留言(0) 人氣( 42 )