時間的あるいは空間的にランダムに発生するカウント可能な事象について、そのカウント数はポアソン分布に従うことが知られています。
本来ならば回観測されることが期待される事象が、ぴったり
回観測される確率
は、
これが、ポアソン分布です。期待値は, 分散も
です。
例えば、一日当たり平均 10,000 人が利用する駅があったとしても、或る日の利用人数がぴったり 10,000 人になる確率はわずか0.4% ()しかありません。
ポアソン分のが十分に大きいときは、平均
、分散
の正規分布と非常によく似た形になります。この場合の誤差の考え方は、
が68%信頼区間、
が95%信頼区間ということになります。
ところで、 が小さいときは、上の考え方は破たんします。なぜなら、0回しかある事象を観測しなかったとき、上の考え方だと誤差0 (つまり、その現象は絶対に起こらない)になってしまうからです。
そもそも、(95%)信頼区間というのは、観測した値以下が得られる確率が一定値(2.5%)以上であり、なおかつ、観測した値以上が得られる確率が一定値(2.5%)以上であるの範囲を意味しています。
下の表は、 が小さいときの信頼区間の上下限を計算したものです。この計算には、有名なオープンソースの統計解析ソフトであるR(http://www.r-project.org/)を使用しました。Rで poisson.test(適当な数字, conf.level = 0.68) とかすると、すぐに計算してくれます。
例えば、ある草原の100 m2の範囲を探索して、10匹のライオンに出会ったとします。単位面積(1 m2)当たりのライオンの生息数は、期待値が0.1 匹(=10匹/100m2)ということになります。また、カウント数に対する95%信頼区間は[4.8, 18.4]です。したがって、1 m2の範囲に存在するライオンの個体数は、95%以上の確率で、0.048 (=4.8/100)匹以上、 0.184(=18.4/100)匹以下であるということになります。
カウント数 | 期待値の68%信頼区間 | 期待値の95%信頼区間 | ||
下限 | 上限 | 下限 | 上限 | |
0 | 0 | 1.841022 | 0 | 3.688879 |
1 | 0.172754 | 3.299527 | 0.025318 | 5.571643 |
2 | 0.708185 | 4.63786 | 0.242209 | 7.224688 |
3 | 1.367295 | 5.918186 | 0.618672 | 8.767273 |
4 | 2.085661 | 7.162753 | 1.089865 | 10.24159 |
5 | 2.840309 | 8.382473 | 1.623486 | 11.66833 |
6 | 3.620069 | 9.583642 | 2.201894 | 13.05947 |
7 | 4.41853 | 10.77028 | 2.814363 | 14.42268 |
8 | 5.231614 | 11.94514 | 3.453832 | 15.76319 |
9 | 6.056539 | 13.1102 | 4.115373 | 17.0848 |
10 | 6.891306 | 14.26695 | 4.795389 | 18.39036 |
11 | 7.734421 | 15.41652 | 5.49116 | 19.68204 |
12 | 8.584734 | 16.55982 | 6.200575 | 20.96159 |
13 | 9.441338 | 17.69757 | 6.921952 | 22.2304 |
14 | 10.3035 | 18.83038 | 7.65393 | 23.48962 |
15 | 11.17062 | 19.95874 | 8.395386 | 24.74022 |
16 | 12.0422 | 21.08307 | 9.145382 | 25.983 |