オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】最尤法 / 最尤推定 / Maximum Likelihood Method

Index

点推定における最尤法

ベルヌーイ分布の例

1 をとる確率が  p 、0 をとる確率が  1-p のベルヌーイ分布  Bi(1, p) が母集団分布の場合を考える.

推定すべき未知の母数は  p であるが、  X_1=1,\ X_2=1,\ X_3=1,\ X_4=1,\ X_5=0 n=5 の標本が得られたとする.

 p は 0 から 1 までの間の値をとる可能性があるが、母数 / パラメータがとりうる値の集合を 母数空間 / Parameter Space とよび、 \Theta で表す.

最尤原理 / Principle Of Maximum Likelihood Method

我々が採用する原理は、最尤原理 / Principle Of Maximum Likelihood Methodといわれ、 「現実の標本は確率最大のものが実現した」という仮定である.

この標本が得られる確率は、

 L(p)\ =\ p^{4}(1-p)



であるが、例えば、 p=0.2 p=0.8 を考えた場合、

  •  p=0.2 で、 L(p)\ =\ 0.00128 となり、
  •  p=0.8 で、 L(p)\ =\ 0.08192 となるので、

 p=0.8 の方が大きい.

したがって、 p=0.8 のほうが尤もらしく、推定値として適当であると判断する.

尤度 / 尤度関数

 L(p) は、母数 / パラメータ空間  \Theta での  p のいろいろな値における 尤もらしさを表す関数とみなすことができ、このように尤もらしさを尤度 / Likelihood、 その関数を尤度関数 / Likelihood Function とよぶ.

最尤法 / 最尤推定 / Maximum Likelihood Method

最尤法は、尤度関数を母数 / パラメータ空間  \Theta で最大にするものを推定値や推定量とするもので、 尤度関数を最大にする値が、最尤推定、関数としては、最大推定量である.

ベイズの観点

多項式フィッティングの例 / 尤度関数

多項式フィッティングにおける w などのパラメータ推定にも、この考えは適用できる.

データを観測する前に、あらかじめ  w に関する 我々の仮説を事前分布確率分布  p(w) の形で取り込んでおく.



例えば、パラメータは、正規分布に従うと考えてみる.





観測データ  D = \{ t_1,\ \cdots,\ t_{N} \} への多項式フィッテングを適用する.



このとき、パラメータ  w には、事前に決めている分布があることを再確認する.

そして、このときのデータに対する評価を  P(D | w) のような条件付き確率で表現する.



 P(D | w) は、データ集合  D に対する評価であり、パラメータ  w の関数とみなせる.

これを尤度関数 (Likelihood Function) とよぶ.

これは、パラメータ  w を固定したときに 観測されたデータ集合が「どれくらい起こりやすいか」を表している.

どれくらい起こりやすいか」とは、 パラメータ  wある分布を事前に仮定しており、 その仮定どおりにデータが存在しているか、 つまりどれくらいその仮定が正しいのかを表現している.



このようにして、データ  D を観測した事後 w に関する 不確実性を事後分布  P(w | D) の形式で表現できる.



尤度の定義から、ベイズの定理は以下のように表現できる.

事後確率  \propto 尤度  \times 事前分布



 p(D) について


意味合いとしては、

  • 観測されたデータ  D の標本の確率分布 (母集団分布ではない?)


計算の役割的には、

  • 事後分布が、確率密度関数として、確実に  1 になるための規格化定数
  •  p(D)\ =\ \displaystyle \int p(D | w) p(w) dw

尤度関数

上にも、データを評価する指標として利用した尤度は、 ベイズ主義と頻度主義の両方のパラダイムで、重要な役割を果たす.

しかしながら、それをどう使うかは 2 つのアプローチで根本的に異なる.

頻度主義の尤度

頻度主義的な設定では、 w固定したパラメータと考えられ、 その値は、(母集団分布の)何らかの「推定量として定められ、 この推定の誤差範囲はデータ集合  D の (標本) 分布を考慮して得られる.

まずは、データ集合の母集団分布があり、



サンプリングされ、データ集合が観測される.



そこへ、推定されたパラメータを持つ多項式がフィティングされる.



このとき尤度関数  f(y_i | x_i) は、観測データ  y_i が 真の値  \mu_i\ =\ \hat{\mu} x_i から離れれば離れるほど小さくなり、 大きい方がこの母集団分布の仮説が正しいことを表す指標になる.

ベイズの尤度

一方ベイズ的な見方では、ただ 1 つの (つまり実際観測された) データ集合  D があって、 パラメータに関する不確実性は  w の確率分布として表される.

まずは、観測されたデータがあって、



事前に決めたパラメータの確率分布を、パラメータの不確実性として、データとの相性を測る.

参考