機械学習 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
統計量について
平均ベクトル
共分散行列
参考

統計量について

複数の説明変数・特徴量を用いて識別や解析を行う際に、測定単位や数値の範囲を、特徴量の大きさが同程度になるように揃えた方が良い場合がある.

また、データの説明変数・特徴量において、相関があると、どちらか一方の特徴があれば識別にこと足りてしまうので、特徴間には、相関がない方がよい.

相関係数
- yhayato1320.hatenablog.com

測定単位の違いを吸収したり、各説明変数・特徴量の間の相関をなくすためには、
学習データ(標本)の分布を表す統計量が必要になる.

統計量
- yhayato1320.hatenablog.com

機械学習では、データに母集団が存在すると考え、母集団分布からサンプリングされた標本から

母集団分布の情報 (統計量) を推定することで、母集団に対応した分類や回帰を行うことを想定している.

推計統計学 (統計的推測) の考え.

その代表例が、平均ベクトルと共分散行列であり、確率分布のパラメータと呼ばれる.

パラメータが分かれば、特徴量の線形変換により単位の違いや相関をなくすことができる.

平均ベクトル

観測データは、 $d$ 次元の特徴ベクトル $X$ とする.

$X\ =\ \begin{pmatrix}x_1 \\ \vdots \\ x_d \end{pmatrix}\ \in\ R^{d}$

$x$ は観測データごとに変動するので、確率変数ベクトルとなる.

確率変数
- yhayato1320.hatenablog.com

その確率分布 (母集団分布) を $p(x)$ とすれば、平均ベクトル $\mu$ は、各特徴ごとに計算した平均値 (標本平均) を並べて、以下のように定義する.

$\begin{align} \mu\ &=\ \begin{pmatrix}\mu_1 \\ \vdots \\ \mu_d \end{pmatrix} \\ &=\ \begin{pmatrix}E[x_1] \\ \vdots \\ E[x_d] \end{pmatrix} \end{align}$

$E[x_{i}]$ は $i$ 番目の特徴量の期待値.

期待値
- yhayato1320.hatenablog.com

観測データが $X_1,\ \cdots,\ X_n$ のように $n$ 個観測されたとして、それぞれのデータが同様の確率で出現すると考えれば、平均ベクトルは算術平均を用いて以下のように表す.

$\mu\ =\ \bar{X}\ =\ \frac{1}{N} \displaystyle \sum_{i=1}^{N} X_{i}$

共分散行列

観測データは平均ベクトルの周りに分布する.

この分布の広がりかた (ばらつき) を、共分散行列 $\Sigma$ で表す.

$\begin{align} \Sigma&=\ Var(X) \\ &=\ E[ (X - \mu) (X - \mu)^{T} ] \\ \\ &=\ \begin{pmatrix} E[ (x_{1} - \mu_{1}) (x_{1} - \mu_{1}) ] & \cdots & E[ (x_{1} - \mu_{1}) (x_{d} - \mu_{d}) ] \\ \vdots & \ddots & \vdots \\ E[ (x_{d} - \mu_{d}) (x_{1} - \mu_{1}) ] & \cdots & E[ (x_{d} - \mu_{d}) (x_{d} - \mu_{d}) ] \end{pmatrix} \end{align}$