オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】標準化 / Standardization

yhayato1320.hatenablog.com

Index

代表値としての標準化

手元のデータ (の分布) を表現するために、様々な代表値が利用されるが、その中のひとつとして利用される.

yhayato1320.hatenablog.com

n 個の観測点  x = \{x_1,\ \cdots,\ x_n \} があったとき、
データを  z_i\ =\ a x_i + b のように、位置 ( b だけ)、尺度 ( a 倍)に関して一次変換した場合
 z の算術平均、分散、標準偏差は以下のようになる.

算術平均 :  \bar{z}\ =\ a \bar{x} + b ( \bar{x} x の算術平均)

分散 :  S_{z}^{2}\ =\ a^{2} S_{x}^{2}
( S_{x} x標準偏差 /  S_{z} z標準偏差)
となる.

 a = \displaystyle \frac{1}{S_{x}},\ b = - \displaystyle \frac{\bar{x}}{S_{x}} の場合を考える.
 z_{i} = \displaystyle \frac{x_{i} - \bar{x}}{S_{x}}

この場合は、すなわち、算術平均を差し引き標準偏差で割って、位置、尺度を調整した結果
算術平均は  \bar{z} = 0標準偏差 S_{z} に揃ったことになる.

この  z をデータ  x標準化 / Standardization (標準得点 / Standard Score) という.


異なるデータ同士(50点満点の国語のテストと100点満点の算数のテストなど)を比較する際に、
それぞれのデータの位置関係を比較することで、利用できる.

確率変数の標準化

ある確率変数  X の確率分布  f(x) があり、
その期待値  E[X]と分散  V(X) を考えてたとする.

yhayato1320.hatenablog.com

任意の  X からその期待値を引いて  X - E[X] を考える.
「期待値との差分」をひとつの確率変数と考えたときの 期待値は  E[ X - E[X] ] = 0 となる.

また、「期待値との差分」の分散は、 V( X - E[X] ) = V(X) と変わらない.

そこで、新たな確率変数  Z を定義する.
 Z = \displaystyle \frac{X - E[X]}{\sqrt{V(X)}}

このように定義することで、新たな確率変数  Z の期待値と分散は以下のようになる.
 E[Z] = 0
 V(Z) = 1
となり、期待値 0 、分散 1 となる確率分布の確率変数とすることができる.

いかなる確率変数も、期待値を引き、標準偏差の尺度で割れば、このように調整できる.
この変換を確率変数の標準化といい、 Z標準化変数という.


期待値 0 、分散 1 となるように調整されているので、 確率変数の比較に利用できる.

機械学習における標準化

学習データを構成する個々の特徴は、測定単位の取り方で大きくなったり小さくなったりする.
(母集団)分布の形状もそれに伴って大きく変化する.

測定単位の影響を取り除く方法が、それぞれの特徴を平均 0、分散 1 の標準化すること.
線形変換の考えは、「代表値としての標準化」と同様.

2 次元のデータに対して行う標準化を中心化と呼ぶ.

参考