オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】ベイズ回帰

Index

ベイズ回帰

ベイズ (推定) 回帰は、回帰分析におけるパラメータに対して、 固定値ではなく、確率的に変動するもの (確率変数) として扱う.

回帰分析からの導入

回帰分析では、回帰方程式を定め、誤差を確率変数と考えることで、 パラメータを推定していた.

 
\left\{
\begin{eqnarray}
f(x)\ &=&\ \beta_{1}\ +\ \beta_{2}\ x \\
 \\
y\ &=&\ f(x)\ +\ \epsilon
\end{eqnarray}
\right.



 f(x) を一般的に、考えて、

 x の特徴ベクトル / (回帰関数の基底関数ベクトル) を

 \phi (x)\ =\ (\phi_{1}(x),\ \cdots,\ \phi(x)_{H})^{T}


としておく.

予測  \hat{y} は、

 \hat{y}\ =\ f(x) =\ \beta^{T}\ \phi(x)


 \beta は、各特徴 (基底関数) への重み / パラメータを表している.

 \beta\ =\ (\beta_{1},\ \cdots,\ \beta_{H})^{T}


各データ (訓練データ) に適用して、

 \boldsymbol{\hat{y}}\ =\ \boldsymbol{\Phi}\ \beta


と、一般化できる.

パラメータ空間

しかし、ここでは、パラメータ  \beta を確率変数として扱う、ベイズ統計の考えを導入してみる.

データに対して、適切な値を設定したいパラメータは、変動することによって評価が変わってくる.

つまり、変動する幅、空間があると考えれば、パラメータ空間という考えも肯けるのではないか.



上は、パラメータ空間とデータ空間の 2 つの空間を確認している.

目的変数の分布 / 予測分布 / 条件付き確率分布

パラメータに空間を考えてみたが、だからなんだというのか.

結局大事な目的は、予測なのである.

パラメータ空間を考えたことによる、予測値についての考えがどうなったのかを考えよう.



回帰分析では、誤差  \epsilon の確率分布  p(\epsilon) を仮定していた.

ということは、(パラメータ  \beta\ =\ (\beta_{1},\ \beta_{2}) と考えて、) パラメータ  \beta が決定した後で、観測  y が得られる 条件付き確率分布を 仮定したとも考えられる.

 y\ \sim\ p(\ y\ |\ \beta\ )



パラメータ  \beta が定まれば、 f(x) が定まり、 \epsilon の分布が仮定されていれば、 観測値  y の分布も考えることができる.

例えば、パラメータの分布がガウス分布に従うとした場合、予測もガウス分布に従う.


\left\{
\begin{array}{ll}
y\ =&\ \boldsymbol{\Phi}\ \beta \\
 \\
\beta\ \sim&\ N(0,\ \lambda^{2} I)
\end{array}
\right.
 
\Longrightarrow
\ y\ \sim\ N(0,\ \lambda^{2}\ \boldsymbol{\Phi}\ \boldsymbol{\Phi}^{T})

パラメータの分布 / 事前分布

パラメータを確率変数と考えてみているので、事前分布と事後分布で、分けて考えることができる.

パラメータ  \beta が、確率分布  p(\beta) を持つ確率変数であるとしよう.



共役事前分布が、期待値  m_{0}、共分散  S_{0} となるガウス分布であると考えれば、

 \beta\ \sim\ p(\beta)\ =\ N(m_{0},\ S_{0})


とかける.

パラメータの分布 / 事後分布

事前分布を考えたのだから、次は事後分布だ.

共役事前分布に、ガウス分布を選んでいれば、事後分布  p(\beta\ |\ y)ガウス分布となる.

 p(\beta\ |\ y)\ =\ N(m_{N},\ S_{N})

ベイズ回帰

回帰モデルのパラメータを最尤推定によって、決める場合、 モデル (回帰方程式) の複雑さデータサイズに依存して、 適切に決めることが重要となる.

これは、単純に尤度関数の最大化によっては解決できない.

過学習を引き起こしてしまうため.



そこで、回帰モデルをベイズ的に取り扱うことにし、過学習を回避すると共に、 訓練データだけから、モデルの複雑さを自動的に決定する.

ベイズ回帰とは

パラメータを確率変数と考え、どうにかして、事後分布を推定する回帰分析.

事後分布の更新・推定 / 逐次ベイズ学習



逐次ベイズ学習

逐次学習 一度の学習で、完了するのではなく、 データセットを複数回に分割して、学習を行う.


ベイズ学習 最初は、適当な事前分布を決定.

分割されたある組のデータセットで、事後分布を決定.

決定した事後分布を事前分布として扱い、次の組のデータセットで、次の事前分布を決定する.

この操作を繰り返す.

(未知のデータに対する推論も同様.)

ガウス過程回帰

ガウス過程回帰とは、データから関数  f(x) の確率分布ガウス過程の形で求める方法.

参考

書籍

Web