オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】ベイズ確率

Index

古典的確率

「確率」をランダムな繰り返し試行の頻度とみなしていた 古典的確率 / 頻度主義的確率がある.

これに、よりベイズ的な見方を導入することで、ベイズ確率を考える.

ベイズ的な見方とは、「確率」を「不確実性」の度合いと考える.

ベイズ確率の導入

  • 新しい情報が加わることで、確率は変わる話 (事前分布と事後分布の概念)
  • モデルの評価 / BIC
  • ベイズの定理
  • 尤度関数
  • コイントス / 無情報事前分布

南極の万年雪の例

不確かな事象、例えば、南極の万年雪がいつまでに消えるかどうかといったことを考える.

これらの事象はたくさんの繰り返し観測ができる事象ではない.

しかし、一般にどれくらい早く極地の氷が溶けるかといったことに関して、我々は何らかの知見を持っている.

そして、これから何か新たな証拠 (例えば、観測衛星が集めた情報など) が加われば、
より精緻な「氷を失う速度」を求めることができるかもしれない.

そのような状況に対しては、不確実性定量的に表現し、新たな証拠に照らして、それを正しく修正したいと考える.

これらはすべて、エレガントに非常に一般的なベイズ的な確率の解釈によって実現できる.

多項式フィッティングの例 / BIC

観測される変数  t_n にのるノイズに頻度主義的な概念をあてはめることは妥当であろう.



しかしながら、我々は、モデルパラメータ  w の適切な選び方に関する不確実性
取り扱い、そして定量化したい.

ベイズ的な観点を採用すれば、(  w といったモデルパラメータのほか、)
モデルそのものの選択に関する不確実性を表すのに利用できる.

BIC (Bayesian Information Criterion)

果物の箱の例 / ベイズの定理

箱の中から果物を取り出す試行を考える.



果物の種類を観測すること ( F=a なのか、 F=o なのか) が、
選ばれた箱が赤である確率  P(B=r) を変える本質的な情報になる.

果物の種類 (F) がわかる前は、取り出す箱 (B) の確率 (事前確率) から、

  •  P(B=r) = \displaystyle \frac{40}{100}

  •  P(B=b) = \displaystyle \frac{60}{100}

であるが、取り出した果物 (F) が何かということがわかった時点で、
選ばれた箱の確率 (事後確率) は変わるのである.

  •  P(B=r\ |\ F)

  •  P(B=b\ |\ F)



この例では、ベイズの定理により、観測されたデータで与えられた証拠
( P(F | B) (尤度) や  P(F) (周辺確率) など) を取り組むことで、
事前確率  P(B) を事後確率  P(B | F) に変換できた.



これは、多項式フィッティングの例にも応用できる.

多項式フィッティングの例 / 尤度関数

多項式フィッティングにおける w などのパラメータ推定にも、この考えは適用できる.

データを観測する前に、あらかじめ  w に関する
我々の仮説を事前確率分布  p(w) の形で取り込んでおく.



例えば、パラメータは、正規分布に従うと考えてみる.





観測データ  D = \{ t_1,\ \cdots,\ t_{N} \} への多項式フィッテングを適用する.



このとき、パラメータ  w には、事前に決めている分布があることを再確認する.

そして、このときのデータに対する評価を  P(D | w) のような条件付き確率で表現する.



 P(D | w) は、データ集合  D に対する評価であり、パラメータ  w の関数とみなせる.

これを尤度関数 (Likelihood Function) とよぶ.

これは、パラメータ  w を固定したときに
観測されたデータ集合が「どれくらい起こりやすいか」を表している.

どれくらい起こりやすいか」とは、
パラメータ  wある分布を事前に仮定しており、
その仮定どおりにデータが存在しているか
つまりどれくらいその仮定が正しいのかを表現している.



このようにして、データ  D を観測した事後 w に関する
不確実性を事後分布  P(w | D) の形式で表現できる.



尤度の定義から、ベイズの定理は以下のように表現できる.

事後確率  \propto 尤度  \times 事前分布



周辺確率  p(D) について


意味合いとしては、
  • 観測されたデータ  D の標本の確率分布 (母集団分布ではない?)


計算の役割的には、
  • 事後分布が、確率密度関数として、確実に  1 になるための規格化定数
  •  p(D)\ =\ \displaystyle \int p(D | w)\ p(w)\ dw\ =\ \displaystyle \int p(D,\ w)\ dw


尤度関数

上にも、データを評価する指標として利用した尤度は、
ベイズ主義と頻度主義の両方のパラダイムで、重要な役割を果たす.

しかしながら、それをどう使うかは 2 つのアプローチで根本的に異なる.

頻度主義の尤度

頻度主義的な設定では、 w固定したパラメータと考えられ、
その値は、(母集団分布の)何らかの「推定量として定められ、
この推定の誤差範囲はデータ集合  D の (標本) 分布を考慮して得られる.

まずは、データ集合の母集団分布があり、



サンプリングされ、データ集合が観測される.



そこへ、推定されたパラメータを持つ多項式がフィティングされる.



このとき尤度関数  f(y_i | x_i) は、観測データ  y_i
真の値  \mu_i\ =\ \hat{\mu} x_i から離れれば離れるほど小さくなり、
大きい方がこの母集団分布の仮説が正しいことを表す指標になる.

ベイズの尤度

一方ベイズ的な見方では、ただ 1 つの (つまり実際観測された) データ集合  D があって、 パラメータに関する不確実性は  w の確率分布として表される.

まずは、観測されたデータがあって、



事前に決めたパラメータの確率分布を、パラメータの不確実性として、データとの相性を測る.

コイントス

ベイズ的な利点の一つは、事前知識を自然に入れられることである.

例えば、公平に見えるコインを 3 回投げて毎回表が出たとしよう.

古典的確率 / 頻度主義的確立の最尤推定では表が出る確率は 1 になってしまう.

これは、未来永劫、表が出ることを意味している.

逆に、ベイズ的アプローチでは妥当な事前分布を使えば、それほど極端な結論を導くことはない.

無情報事前分布

しかし、「どこまで主観的な情報を認めるか」という問題もある.

そこで、事前分布への依存を小さくしたいときに、
無情報事前分布 (Noninformation Prior)を利用することができる.

まとめ

  • ベイズ確率は、古典的確率 / 頻度主義的確率を基に、ベイズ的な視点を加えた考え.
  • データが観測される前に、事前確率を導入している.
    • その事前確率には、すでに分かっている情報を組み込むことができる.
    • また、事前情報を含めずに、無情報事前分布を利用することもできる.
  • 観測されたデータを組み込むことで、事後確率を導出し、予測に利用することができる.

参考