Index
統計量について
複数の説明変数・特徴量を用いて識別や解析を行う際に、測定単位や数値の範囲を、
特徴量の大きさが同程度になるように揃えた方が良い場合がある.
また、データの説明変数・特徴量において、相関があると、どちらか一方の特徴があれば識別にこと足りてしまうので、
特徴間には、相関がない方がよい.
測定単位の違いを吸収したり、各説明変数・特徴量の間の相関をなくすためには、
学習データ(標本)の分布を表す統計量が必要になる.
機械学習では、データに母集団が存在すると考え、母集団分布からサンプリングされた標本から
母集団分布の情報 (統計量) を推定することで、母集団に対応した分類や回帰を行うことを想定している.
推計統計学 (統計的推測) の考え.
母集団分布の情報 (統計量) を推定することで、母集団に対応した分類や回帰を行うことを想定している.
推計統計学 (統計的推測) の考え.
その代表例が、平均ベクトルと共分散行列であり、確率分布のパラメータと呼ばれる.
パラメータが分かれば、特徴量の線形変換により単位の違いや相関をなくすことができる.
平均ベクトル
観測データは、 次元の特徴ベクトル とする.
は観測データごとに変動するので、確率変数ベクトルとなる.
その確率分布 (母集団分布) を とすれば、平均ベクトル は、
各特徴ごとに計算した平均値 (標本平均) を並べて、以下のように定義する.
は 番目の特徴量の期待値.
観測データが のように 個観測されたとして、
それぞれのデータが同様の確率で出現すると考えれば、平均ベクトルは算術平均を用いて以下のように表す.
共分散行列
観測データは平均ベクトルの周りに分布する.
この分布の広がりかた (ばらつき) を、共分散行列 で表す.