ポアソン分布の信頼区間

時間的あるいは空間的にランダムに発生するカウント可能な事象について、そのカウント数はポアソン分布に従うことが知られています。

本来ならば\lambda回観測されることが期待される事象が、ぴったりk回観測される確率P(\lambda, k)は、

  P(\lambda, k) = \cfrac{\lambda^k e^{-\lambda}}{k!}

これが、ポアソン分布です。期待値は\lambda, 分散も\lambdaです。

例えば、一日当たり平均 10,000 人が利用する駅があったとしても、或る日の利用人数がぴったり 10,000 人になる確率はわずか0.4% (= \cfrac{10000^{1000} e^{-10000}}{10000!})しかありません。

ポアソン分の\lambdaが十分に大きいときは、平均\lambda、分散\lambdaの正規分布と非常によく似た形になります。この場合の誤差の考え方は、[\lambda - \sqrt{ \lambda}, \lambda + \sqrt{ \lambda}] が68%信頼区間、[\lambda - 2\sqrt{ \lambda}, \lambda + 2\sqrt{ \lambda}] が95%信頼区間ということになります。

ところで、\lambda が小さいときは、上の考え方は破たんします。なぜなら、0回しかある事象を観測しなかったとき、上の考え方だと誤差0 (つまり、その現象は絶対に起こらない)になってしまうからです。

そもそも、(95%)信頼区間というのは、観測した値以下が得られる確率が一定値(2.5%)以上であり、なおかつ、観測した値以上が得られる確率が一定値(2.5%)以上である\lambdaの範囲を意味しています。

下の表は、\lambda が小さいときの信頼区間の上下限を計算したものです。この計算には、有名なオープンソースの統計解析ソフトであるR(http://www.r-project.org/)を使用しました。Rで poisson.test(適当な数字, conf.level = 0.68) とかすると、すぐに計算してくれます。

例えば、ある草原の100 m2の範囲を探索して、10匹のライオンに出会ったとします。単位面積(1 m2)当たりのライオンの生息数は、期待値が0.1 匹(=10匹/100m2)ということになります。また、カウント数に対する95%信頼区間は[4.8, 18.4]です。したがって、1 m2の範囲に存在するライオンの個体数は、95%以上の確率で、0.048 (=4.8/100)匹以上、 0.184(=18.4/100)匹以下であるということになります。

カウント数 期待値の68%信頼区間 期待値の95%信頼区間
下限 上限 下限 上限
0 0 1.841022 0 3.688879
1 0.172754 3.299527 0.025318 5.571643
2 0.708185 4.63786 0.242209 7.224688
3 1.367295 5.918186 0.618672 8.767273
4 2.085661 7.162753 1.089865 10.24159
5 2.840309 8.382473 1.623486 11.66833
6 3.620069 9.583642 2.201894 13.05947
7 4.41853 10.77028 2.814363 14.42268
8 5.231614 11.94514 3.453832 15.76319
9 6.056539 13.1102 4.115373 17.0848
10 6.891306 14.26695 4.795389 18.39036
11 7.734421 15.41652 5.49116 19.68204
12 8.584734 16.55982 6.200575 20.96159
13 9.441338 17.69757 6.921952 22.2304
14 10.3035 18.83038 7.65393 23.48962
15 11.17062 19.95874 8.395386 24.74022
16 12.0422 21.08307 9.145382 25.983