Index
代表値としての標準化
手元のデータ (の分布) を表現するために、様々な代表値が利用されるが、その中のひとつとして利用される.
個の観測点 があったとき、
データを のように、位置 ( だけ)、尺度 ( 倍)に関して一次変換した場合
の算術平均、分散、標準偏差は以下のようになる.
となる.
の場合を考える.
この場合は、すなわち、算術平均を差し引き標準偏差で割って、位置、尺度を調整した結果
算術平均は 、標準偏差は に揃ったことになる.
この をデータ の標準化 / Standardization (標準得点 / Standard Score) という.
データを のように、位置 ( だけ)、尺度 ( 倍)に関して一次変換した場合
の算術平均、分散、標準偏差は以下のようになる.
となる.
の場合を考える.
この場合は、すなわち、算術平均を差し引き標準偏差で割って、位置、尺度を調整した結果
算術平均は 、標準偏差は に揃ったことになる.
この をデータ の標準化 / Standardization (標準得点 / Standard Score) という.
異なるデータ同士(50点満点の国語のテストと100点満点の算数のテストなど)を比較する際に、
それぞれのデータの位置関係を比較することで、利用できる.
確率変数の標準化
ある確率変数 の確率分布 があり、
その期待値 と分散 を考えてたとする.
任意の からその期待値を引いて を考える.
「期待値との差分」をひとつの確率変数と考えたときの 期待値は となる.
また、「期待値との差分」の分散は、 と変わらない.
そこで、新たな確率変数 を定義する.
このように定義することで、新たな確率変数 の期待値と分散は以下のようになる.
となり、期待値 0 、分散 1 となる確率分布の確率変数とすることができる.
いかなる確率変数も、期待値を引き、標準偏差の尺度で割れば、このように調整できる.
この変換を確率変数の標準化といい、 を標準化変数という.
「期待値との差分」をひとつの確率変数と考えたときの 期待値は となる.
また、「期待値との差分」の分散は、 と変わらない.
そこで、新たな確率変数 を定義する.
このように定義することで、新たな確率変数 の期待値と分散は以下のようになる.
いかなる確率変数も、期待値を引き、標準偏差の尺度で割れば、このように調整できる.
この変換を確率変数の標準化といい、 を標準化変数という.
期待値 0 、分散 1 となるように調整されているので、 確率変数の比較に利用できる.
機械学習における標準化
学習データを構成する個々の特徴は、測定単位の取り方で大きくなったり小さくなったりする.
(母集団)分布の形状もそれに伴って大きく変化する.
測定単位の影響を取り除く方法が、それぞれの特徴を平均 0、分散 1 の標準化すること.
線形変換の考えは、「代表値としての標準化」と同様.
2 次元のデータに対して行う標準化を中心化と呼ぶ.