オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】統計量

Index

母平均

母集団分布  f(x) を特定する代表的な母数 (Parameter) は、平均

 \mu\ =\ \displaystyle \sum_{x} x\ f(x) (離散型)
 \mu\ =\ \displaystyle \int_{- \infty}^{\infty} x\ f(x)\ dx (連続型)



であり、これを母平均 / Population Meam という.

同様に、母分散 / Population Variance も定まる.

しかし、母集団全体を調べることは難しいので、 n 個の標本を抽出して、 標本平均  \bar{X}\ =\ \displaystyle \frac{1}{n} (X_1\ +\ \cdots\ +\ X_n) を以下の理由から用いることにする.

  1. 母平均  \mu の母集団分布  f(x) からの標本平均の期待値  E[\bar{X}] E[\bar{X}]\ =\ \mu となる.
  2. 大数の法則から、 n が大きくなるにつれ、 \bar{X}\ \rightarrow\ \mu (確率収束)

統計量

ここでの、標本平均のように、標本を要約し、母集団分布の母数 (Parameter) の 推測に使われるもの統計量 Statistic と呼ぶ.

統計量には、標本の平均、分散、最小値、最大値、相関係数など数多くのものがあるが、 重要な点は、分布の特徴を要約するのに適している統計量を選択すること.

統計量の標本分布

標本  X_1, \cdots,\ X_n母集団分布に従って分布し、 統計量は標本を入力する関数とみなせるので、関数  t とする.

すると、ある統計量は  t(X_1, \cdots, X_n) と表せる.

この統計量の確率分布は母集団分布から求められる.

この関係を逆に用いれば、統計量の値の出方から、母集団分布が分かる

統計量  t(X_1, \cdots, X_n) の確率分布をその統計量標本分布という.



一般に、統計量の標本分布は、母集団分布に依存し、その計算には多重積分を必要とするため、 簡単な統計量でも正確に求めることが困難である場合が多い.

しかし、母集団分布が正規分布であると仮定した場合、 標本平均、標本分散の正確な標本分布を求めることができる.

標本平均と標本分散

母集団の特徴を表す母数 (Prameter) としてよく使われているのが、 母平均  \mu と母分散  \sigma^{2} である.

その理由としては、

  1.  \mu \sigma^{2} は分布の位置と幅 (ばらつき) を表している.
  2. 母集団分布が正規分布の場合、この 2 つの母数 (Parameter)  \mu,\ \sigma^{2}
    母集団分布の特性を完全に表せること.

がある.

母平均  \mu のためには標本平均が、母分散  \sigma^{2} のためには標本分散を手がかりに考える.

標本平均

標本  X_1,\ \cdots,\ X_n から計算された平均を標本平均 / Sample Mean と呼ぶ.

標本平均  \bar{X}は、

 \bar{X}\ =\ \displaystyle \frac{X_1\ +\  \cdots\ +\ X_n}{n}



と定義される.

標本分散

標本  X_1,\ \cdots,\ X_n から計算された分散を標本分散 / Sample Variance と呼ぶ.

標本分散  s^{2} は、

 s^{2}\ =\ \displaystyle \frac{(X_1-\bar{X})\ +\  \cdots\ +\ (X_n-\bar{X})}{n - 1}



と定義される.

参考