確率 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
古典的確率
ベイズ確率の導入
まとめ
参考

古典的確率

「確率」をランダムな繰り返し試行の頻度とみなしていた 古典的確率 / 頻度主義的確率がある.

確率
- yhayato1320.hatenablog.com

これに、よりベイズ的な見方を導入することで、ベイズ確率を考える.

ベイズ的な見方とは、「確率」を「不確実性」の度合いと考える.

ベイズ確率の導入

新しい情報が加わることで、確率は変わる話 (事前分布と事後分布の概念)
モデルの評価 / BIC
ベイズの定理
尤度関数
コイントス / 無情報事前分布

南極の万年雪の例

不確かな事象、例えば、南極の万年雪がいつまでに消えるかどうかといったことを考える.

南極の雪の話
- www.polewards.com

これらの事象はたくさんの繰り返し観測ができる事象ではない.

しかし、一般にどれくらい早く極地の氷が溶けるかといったことに関して、我々は何らかの知見を持っている.

そして、これから何か新たな証拠 (例えば、観測衛星が集めた情報など) が加われば、
より精緻な「氷を失う速度」を求めることができるかもしれない.

そのような状況に対しては、不確実性を定量的に表現し、新たな証拠に照らして、それを正しく修正したいと考える.

これらはすべて、エレガントに非常に一般的なベイズ的な確率の解釈によって実現できる.

多項式フィッティングの例 / BIC

観測される変数 $t_n$ にのるノイズに頻度主義的な概念をあてはめることは妥当であろう.

しかしながら、我々は、モデルパラメータ $w$ の適切な選び方に関する不確実性を
取り扱い、そして定量化したい.

ベイズ的な観点を採用すれば、( $w$ といったモデルパラメータのほか、)
モデルそのものの選択に関する不確実性を表すのに利用できる.

BIC (Bayesian Information Criterion)

果物の箱の例 / ベイズの定理

箱の中から果物を取り出す試行を考える.

果物の種類を観測すること ( $F=a$ なのか、 $F=o$ なのか) が、
選ばれた箱が赤である確率 $P(B=r)$ を変える本質的な情報になる.

果物の種類 (F) がわかる前は、取り出す箱 (B) の確率 (事前確率) から、

$P(B=r) = \displaystyle \frac{40}{100}$

$P(B=b) = \displaystyle \frac{60}{100}$

であるが、取り出した果物 (F) が何かということがわかった時点で、
選ばれた箱の確率 (事後確率) は変わるのである.

$P(B=r\ |\ F)$

$P(B=b\ |\ F)$

この例では、ベイズの定理により、観測されたデータで与えられた証拠
( $P(F | B)$ (尤度) や $P(F)$ (周辺確率) など) を取り組むことで、
事前確率 $P(B)$ を事後確率 $P(B | F)$ に変換できた.

ベイズの定理
- yhayato1320.hatenablog.com

これは、多項式フィッティングの例にも応用できる.

多項式フィッティングの例 / 尤度関数

多項式フィッティングにおける $w$ などのパラメータ推定にも、この考えは適用できる.

データを観測する前に、あらかじめ $w$ に関する
我々の仮説を事前確率分布 $p(w)$ の形で取り込んでおく.

例えば、パラメータは、正規分布に従うと考えてみる.

観測データ $D = \{ t_1,\ \cdots,\ t_{N} \}$ への多項式フィッテングを適用する.

このとき、パラメータ $w$ には、事前に決めている分布があることを再確認する.

そして、このときのデータに対する評価を $P(D | w)$ のような条件付き確率で表現する.

$P(D | w)$ は、データ集合 $D$ に対する評価であり、パラメータ $w$ の関数とみなせる.

これを尤度関数 (Likelihood Function) とよぶ.

これは、パラメータ $w$ を固定したときに
観測されたデータ集合が「どれくらい起こりやすいか」を表している.

「どれくらい起こりやすいか」とは、
パラメータ $w$ にある分布を事前に仮定しており、
その仮定どおりにデータが存在しているか、
つまりどれくらいその仮定が正しいのかを表現している.

このようにして、データ $D$ を観測した事後に $w$ に関する
不確実性を事後分布 $P(w | D)$ の形式で表現できる.

尤度の定義から、ベイズの定理は以下のように表現できる.

事後確率 $\propto$ 尤度 $\times$ 事前分布

周辺確率 $p(D)$ について

意味合いとしては、

観測されたデータ $D$ の標本の確率分布 (母集団分布ではない？)

計算の役割的には、

事後分布が、確率密度関数として、確実に $1$ になるための規格化定数
$p(D)\ =\ \displaystyle \int p(D | w)\ p(w)\ dw\ =\ \displaystyle \int p(D,\ w)\ dw$

周辺確率

yhayato1320.hatenablog.com

尤度関数

上にも、データを評価する指標として利用した尤度は、
ベイズ主義と頻度主義の両方のパラダイムで、重要な役割を果たす.

しかしながら、それをどう使うかは 2 つのアプローチで根本的に異なる.

頻度主義の尤度

頻度主義的な設定では、 $w$ は固定したパラメータと考えられ、
その値は、(母集団分布の)何らかの「推定量」として定められ、
この推定の誤差範囲はデータ集合 $D$ の (標本) 分布を考慮して得られる.

まずは、データ集合の母集団分布があり、

サンプリングされ、データ集合が観測される.

そこへ、推定されたパラメータを持つ多項式がフィティングされる.

このとき尤度関数 $f(y_i | x_i)$ は、観測データ $y_i$ が
真の値 $\mu_i\ =\ \hat{\mu} x_i$ から離れれば離れるほど小さくなり、
大きい方がこの母集団分布の仮説が正しいことを表す指標になる.

ベイズの尤度

一方ベイズ的な見方では、ただ 1 つの (つまり実際観測された) データ集合 $D$ があって、パラメータに関する不確実性は $w$ の確率分布として表される.

まずは、観測されたデータがあって、

事前に決めたパラメータの確率分布を、パラメータの不確実性として、データとの相性を測る.

コイントス

ベイズ的な利点の一つは、事前知識を自然に入れられることである.

例えば、公平に見えるコインを 3 回投げて毎回表が出たとしよう.

古典的確率 / 頻度主義的確立の最尤推定では表が出る確率は 1 になってしまう.

これは、未来永劫、表が出ることを意味している.

逆に、ベイズ的アプローチでは妥当な事前分布を使えば、それほど極端な結論を導くことはない.

無情報事前分布

しかし、「どこまで主観的な情報を認めるか」という問題もある.

そこで、事前分布への依存を小さくしたいときに、
無情報事前分布 (Noninformation Prior)を利用することができる.

まとめ

ベイズ確率は、古典的確率 / 頻度主義的確率を基に、ベイズ的な視点を加えた考え.
データが観測される前に、事前確率を導入している.
- その事前確率には、すでに分かっている情報を組み込むことができる.
- また、事前情報を含めずに、無情報事前分布を利用することもできる.
観測されたデータを組み込むことで、事後確率を導出し、予測に利用することができる.

参考

多変量解析入門
- 2 線形回帰モデル
  - 2.1 2変数間の関係お捉える
    - 2.1.3 モデルの推定 / 最尤法
- 多変量解析入門　線形から非線形へ
  - 作者:小西貞則
  - 岩波書店
  Amazon
パターン認識と機械学習上
- 1 序論
  - 1.2 確率論
    - 1.2.3 ベイズ確率
- パターン認識と機械学習上
  - 作者:C.M. ビショップ
  - 丸善出版
  Amazon

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】ベイズ確率