オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】平均ベクトルと共分散行列

Index

統計量について

複数の説明変数・特徴量を用いて識別や解析を行う際に、測定単位や数値の範囲を、 特徴量の大きさが同程度になるように揃えた方が良い場合がある.

また、データの説明変数・特徴量において、相関があると、どちらか一方の特徴があれば識別にこと足りてしまうので、 特徴間には、相関がない方がよい.

測定単位の違いを吸収したり、各説明変数・特徴量の間の相関をなくすためには、
学習データ(標本)の分布を表す統計量が必要になる.

機械学習では、データに母集団が存在すると考え、母集団分布からサンプリングされた標本から

母集団分布の情報 (統計量) を推定することで、母集団に対応した分類や回帰を行うことを想定している.

推計統計学 (統計的推測) の考え.



その代表例が、平均ベクトル共分散行列であり、確率分布のパラメータと呼ばれる.

パラメータが分かれば、特徴量の線形変換により単位の違いや相関をなくすことができる.

平均ベクトル

観測データは、 d 次元の特徴ベクトル  X とする.

 X\ =\ \begin{pmatrix}x_1 \\ \vdots \\ x_d \end{pmatrix}\ \in\ R^{d}



 x は観測データごとに変動するので、確率変数ベクトルとなる.

その確率分布 (母集団分布) を  p(x) とすれば、平均ベクトル  \mu は、 各特徴ごとに計算した平均値 (標本平均) を並べて、以下のように定義する.


\begin{align} 
\mu\ &=\ \begin{pmatrix}\mu_1 \\ \vdots \\ \mu_d \end{pmatrix} \\
&=\ \begin{pmatrix}E[x_1] \\ \vdots \\ E[x_d] \end{pmatrix}
\end{align}



 E[x_{i}] i 番目の特徴量の期待値.

観測データが  X_1,\ \cdots,\ X_n のように  n 個観測されたとして、 それぞれのデータが同様の確率で出現すると考えれば、平均ベクトルは算術平均を用いて以下のように表す.

 \mu\ =\ \bar{X}\ =\ \frac{1}{N} \displaystyle \sum_{i=1}^{N} X_{i}

共分散行列

観測データは平均ベクトルの周りに分布する.

この分布の広がりかた (ばらつき) を、共分散行列  \Sigma で表す.

 
\begin{align}
\Sigma&=\ Var(X) \\
&=\ E[ (X - \mu) (X - \mu)^{T} ] \\
\\
&=\ 
\begin{pmatrix}
E[ (x_{1} - \mu_{1}) (x_{1} - \mu_{1}) ] & \cdots & E[ (x_{1} - \mu_{1}) (x_{d} - \mu_{d}) ] \\
\vdots & \ddots & \vdots \\
E[ (x_{d} - \mu_{d}) (x_{1} - \mu_{1}) ] & \cdots & E[ (x_{d} - \mu_{d}) (x_{d} - \mu_{d}) ]
\end{pmatrix}

\end{align}

参考