時間的あるいは空間的にランダムに発生するカウント可能な事象について、そのカウント数はポアソン分布に従うことが知られています。
本来ならば \(\lambda\) 回観測されることが期待される事象が、ぴったり \(k\) 回観測される確率 \(P(\lambda, k)\)は、$$P(\lambda, k) = \frac{\lambda^k e^{-\lambda}}{k!}$$となります。これが、ポアソン分布です。この分布の期待値は \(\lambda\) であり、 分散も \(\lambda\) です。例えば、一日当たり平均 10,000 人が利用する駅があったとしても、或る日の利用人数がぴったり 10,000 人になる確率はわずか 0.4 % ( \(= \displaystyle\frac{10000^{1000} e^{-10000}}{10000!}\) )しかありません。
さて、「本来ならば \(\lambda\) 回」 とさらっと書きましたが、一般に真の \(\lambda\) の値を知ることは (神様が教えてくれない限り) 困難です。ほとんどの場合、観測を積み重ねて真の値に近いと思われる値 (最尤値) や真の値が含まれる範囲を推定するしありません。一定の確率で真の値が含まれるであろう範囲が推定できた時、その範囲を信頼区間といいます。例えば 95 % 信頼区間というのは、観測した値以下が得られる確率が 2.5 % 以下であり、なおかつ、観測した値以上が得られる確率が 2.5 % 以下である範囲を意味しています。
ポアソン分布の場合、 \(\lambda\) が十分に大きいときは平均 \(\lambda\)、分散 \(\lambda\) の正規分布と非常によく似た関数形状になります。この場合の信頼区間の考え方は、\([\lambda – \sqrt{ \lambda}, \lambda + \sqrt{ \lambda}] \) が68%信頼区間、 \([\lambda – 2\sqrt{ \lambda}, \lambda + 2\sqrt{ \lambda}] \) が95 %信頼区間という、正規分布の理論で良く見慣れた表式になります。
一方 \(\lambda\) が小さいときは、正規分布で近似する仮定は破たんします。なぜなら、例えば 0 回しかある事象を観測しなかったとき、上の考え方だと誤差 0 (つまり、その現象は絶対に起こらない)になってしまうからです。ポアソン分布の信頼区間を求めるのは結構複雑な積分を解かなければいけないのですが、世の中には便利なオープンソースの統計解析ソフトである R(http://www.r-project.org/) があります。下の表は、\(\lambda\) が小さいときの信頼区間の上下限を計算したものです。Rで poisson.test(適当な数字, conf.level = 0.68) とかすると、すぐに計算してくれます。
カウント数 | 期待値の68%信頼区間 | 期待値の95%信頼区間 | ||
下限 | 上限 | 下限 | 上限 | |
0 | 0 | 1.841022 | 0 | 3.688879 |
1 | 0.172754 | 3.299527 | 0.025318 | 5.571643 |
2 | 0.708185 | 4.63786 | 0.242209 | 7.224688 |
3 | 1.367295 | 5.918186 | 0.618672 | 8.767273 |
4 | 2.085661 | 7.162753 | 1.089865 | 10.24159 |
5 | 2.840309 | 8.382473 | 1.623486 | 11.66833 |
6 | 3.620069 | 9.583642 | 2.201894 | 13.05947 |
7 | 4.41853 | 10.77028 | 2.814363 | 14.42268 |
8 | 5.231614 | 11.94514 | 3.453832 | 15.76319 |
9 | 6.056539 | 13.1102 | 4.115373 | 17.0848 |
10 | 6.891306 | 14.26695 | 4.795389 | 18.39036 |
11 | 7.734421 | 15.41652 | 5.49116 | 19.68204 |
12 | 8.584734 | 16.55982 | 6.200575 | 20.96159 |
13 | 9.441338 | 17.69757 | 6.921952 | 22.2304 |
14 | 10.3035 | 18.83038 | 7.65393 | 23.48962 |
15 | 11.17062 | 19.95874 | 8.395386 | 24.74022 |
16 | 12.0422 | 21.08307 | 9.145382 | 25.983 |
例えば、ある草原の 100 m2の範囲を探索して、10 匹のライオンに出会ったとします。単位面積 (1 m2) 当たりのライオンの生息数は、期待値が 0.1 匹 (=10 匹/100 m2)ということになります。また、カウント数に対する 95 % 信頼区間は[4.8, 18.4]です。したがって、1 m2の範囲に存在するライオンの個体数は、95 %以上の確率で、0.048 (=4.8/100)匹以上、 0.184(=18.4/100)匹以下であるということになります。
それではライオンに一匹も出会わなかった場合どうでしょう。期待値はもちろん 0 匹/m2 なのですが、95 % 信頼区間は [0, 3.69] です。ライオンを見つけていないのに、信頼区間の上限はゼロにはなりません。 驚くべきことですね。ライオンには気を付けましょう。