昨日の結果の分析
分析
昨日のデータを分析してみる。
「50回ずつ叩く」という実験を22回した。そのうちの2つは数え間違いの可能性が大きいので、そのデータは捨てる。すると、結局50*20=1000回分のデータが得られたことになる。この間に出たクリの回数は合計で809回。つまりクリが発生の統計上のクリ発生率は80.9%となる。なので素朴な結論としては
「多分、設計上のクリ発生率は80%だろうねー」
と言う感じ。
信頼性の違い
これはこれでいいのだけれど、少し釈然としない部分が残る。
もし、誰かが(1000回ではなく)100回叩くという実験をして、その結果(例えば)80回クリが出たとしたら、やはり結論としては
「多分、設計上のクリ発生率は80%かなー」
となる。結論としては両者は全く同じ。でも、その信頼性はだいぶ違うはず。なにしろ両者には実験回数に10倍の開きがあるのだから。
信頼性の可視化
では「何とかして、その信頼性の違いを可視化できないか?」と考えてみる。
それで、いろいろ助言を頂いたり、調べてみりしているうちに結局たどり着いたのが「確率論を使うべし」というもの。やはり逃げられなかったっぽい。やだ怖い。
仕方ないので確率論を少し勉強した。クリ率の分析には「二項分布」ってのが鍵になるらしい。
そして、今回の実験から得られた推定値がこちらの赤いグラフ。
0.8 (=80%)付近に高い山が出来ている。これは「実際のクリ率は80%に近いよ」ということを表していて。山の高さは、その信頼性を表している。
一方で、仮に100回叩く実験をしたとして80回クリが出た場合、そこから得られる推定値が青いグラフ。 どちらも80%付近という意味では同じだけれど、推定値の鋭さの違いが見て取れる。