統計二三事~認識poisson和累積人數

之前幫忙臨床實驗時遇到一個很有趣的問題：要估算要開多少site收病人，才能在合理的時間內達到需要的病人數(當然這也跟經費有關)。

這種事單位時間內能收到的病人數是一種poisson過程，單位時間內病人數會是poisson分布，如果倒過來想看要收1000個人要多久，那一般等待時間是從幾何分布。關鍵的參數是Rate：單位時間內能收到病人數。這大約是基礎的統計學課會介紹到的。

當時我就看到一組資料有大約累積半年收到病人數的情況，大約是下圖的感覺：(假設開了五個site)

(a) 每一個site每個月收到的病人數

(b) 每一個site每個月收到的累積病人數

(d) 所有site每個月收到的累積病人數

圖(d)是不是很驚人...第一次看到時我也愣了一下...根本一直線!!! 如果拿圖(d)的累積病人數對時間做分析，R squared 隨便都超過99%。如果多開幾個site，總Rate越大，整個累積病人數對時間相關性可達到99.9%。

當時還遇到的問題是：所有site沒法同時開，美國的半年內全可以全開，但是其他國家的site最快要等個半年才會開始，希望一年多內能把全部site都開滿。這次假設開了20個site，一個月增一個site，且每個site本身能收病人的速度(Rate)都不一樣。

圖(d)就成了完美的二次式曲線....R squared 隨便都達99.9%。一旦site開滿了，沒有再新增，後面就會成直線了...

其實poisson過程出來的變數和一般常假設常態分布有很大的不同。常態分布的性是中心位置(平均數)和離散程度(標準差)是互不相干的。但是poisson的平均數就是Rate，而他的標準差和Rate是有關的：標準差是Rate開根號，也就是平均數1時標準差為1，但平均數是100時，標準差只有10。平均數是10000時，標準差只有100。Rate越大，累積病人數資料越穩定。像Poisson這樣的變數，只要掌握一個參數Rate，最多考慮一下Rate隨時間變化，然後整個curve就出來了。

PS 因為不方便隨便公開別人的數據，所以資料是模擬出的數據，但基本上現象是一樣的。不信的話可以在家找一把硬幣來丟每天丟一把(或隨便弄個彩球色紙來抽每天抽一把)，每天記錄正面(或有色)的個數，把累積次數記下，過幾天那圖就會越來越直，累積數越高線看起來越直。這是Poisson和二項分配的關聯性：把單位時間當成一分鐘，那每一分有沒有病人進來就是一個白努力實驗(丟硬幣實驗)。那一天的收到的人數大約是rate*1440，二項分布Bin(rate, 1440)，最後就看累積正面數和第幾天實驗做圖。

霹靂貓

生活統計二三事

霹靂貓發表在痞客邦留言(0) 人氣( 56 )

全站分類：生活綜合
個人分類：統計二三事

▲top

請先登入以發表留言。

生活統計二三事

希望更多人用更有邏輯性更深入的方式思考自己感興趣的問題，交流討論。

參觀人氣

生活統計二三事

希望更多人用更有邏輯性更深入的方式思考自己感興趣的問題，交流討論。

統計二三事~認識poisson和累積人數

你可能也喜歡

參觀人氣

成人內容提醒