オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】ベイズの定理

この記事の読者

統計学の基礎となる「ベイズの定理」について知りたい



キーワード・知ってると理解がしやすい

Index

ベイズの定理とは

統計学における確率に対する考えの一つ.

簡易的な例

事象  A を発生した結果、事象  H_1,\ H_2,\ \cdots,\ H_k を事象  A が発生した原因とする.

多くの場合、知りたい情報としては、「Aが起こったとき、原因が  H_i である」確率、
すなわち  P(H_i | A) だが、

多くの場合、知ることができるのは、「原因  H_i が起こったときに結果Aが発生する」確率、
すなわち  P(A | H_i) である.



そこで、結果Aが起こったときの原因の確率  P(H_i | A) を計算する方法としてベイズの定理がある.

定義

 H_1, H_2, \cdots, H_k は互いに背反で、かつ  H_1 \cup H_2 \cup \cdots \cup H_k = \Omega
ようにすべての場合をつくしているとする.

このとき、以下が成立している.


\begin{align}
P(H_i | A)&=\ \displaystyle \frac{P(H_i) \cdot P(A | H_i)}{P(A)} \\
\\
&=\ \displaystyle \frac{P(H_i) \cdot P(A | H_i)}{\sum P(H_j) \cdot P(A | H_j)} \tag{1}
\end{align}



ここで、 P(H_i) H_i事前確率 Prior Probability P(H_i | A)事後確率 Posterior Probabilityと呼ばれる.
「事前」、「事後」は事象 A の発生を基準としている.

また、 P(A | H_i) は、原因  H_iが発生したときに、事象 A が発生する確率となるので、尤度関数としても考えられる.
( H_i の尤もらしさ、どれだけ A を発生させるか)

このことから、ベイズの定理は、以下のようにも表現できる.

 事後確率 \propto 事前確率 \times 尤度

 事後確率\ =\ \displaystyle \frac{事前確率\ \times\ 尤度}{周辺確率}

ベイズ確率

確率の観点において、「頻度主義」と「ベイズ主義」は基本的な考えが異なる.

 P(A | H_i) は、原因  H_i が発生したときに、事象 A が発生する確率 = 尤度関数」について、
「頻度主義」は、 H A を表現するための、固定されているパラメータと考え、それを推定量と考える.

ベイズ主義」では、 H を不確実性のある確率分布として考える.

つぼと玉の例

2つのつぼがあり、つぼ【1】には、白玉が 3 個、黒玉が 1 個入っており、
つぼ【2】には、白玉が 1 個、黒玉が 2 個入っている.



いま、いずれかのつぼから玉を 1 つ取り出したところ白玉であった.

どちらのつぼからである確率が高いかを考える.

 H_1 をつぼ【1】から取り出す事象、
 H_2をつぼ【2】から取り出す事象とする.

いずれのつぼを選ぶのも等しい確率であると考えられるから、
事前確率は  P(H_1)\ =\ P(H_2)\ =\ \displaystyle \frac{1}{2} である.

また、それぞれのつぼの玉の状況から、条件付確率  P(白 | H_1)\ =\ \displaystyle \frac{3}{4} であり、  P(白 | H_2)\ =\ \displaystyle \frac{1}{3} である.

これらより、事後確率は以下のように計算できる.

 
P(H_1 | 白)\ =\ \displaystyle \frac{P(H_1) \times P(白 | H_1)}{P(H_1) \times P(白 | H_1) + P(H_2) \times P(白 | H_2)}\ =\ \displaystyle \frac{9}{13} \\
P(H_2 | 白)\ =\ \displaystyle \frac{P(H_2) \times P(白 | H_2)}{P(H_1) \times P(白 | H_1) + P(H_2) \times P(白 | H_2)}\ =\ \displaystyle \frac{4}{13}



よって、つぼ【1】から取り出した確率が高いのである.

白玉の数も割合も多いつぼ【1】の方から取り出された確率が高いのは、直感的にわかり、計算の意義はあるのかと疑うこともあるだろうが、
どのくらい確率が高いのか、またもっと複雑な場合、例えば、つぼや玉の種類がさらに多い場合など、は計算式を立てられることで問題がスムーズに解決する

まとめ

  • ベイズの定理を使うことで、事後確率を事前確率を使って表現することができる
  • 事前確率は主観的に決定することができるので、分析者の主観確率を計算することができる

参考