オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】母集団分布

Index

母集団分布

推計統計学 (統計的推測) において、知りたいのは、元の母集団についてである.

母集団はある分布を持っていると仮定しているので、目的としてその分布を知れればよい.

それを母集団分布 (population distribution)という.

標本抽出 / Sampling

標本  X_1,\ X_2,\ \cdots,\ X_n は、この母集団分布から抽出されているから、 各標本  X_iこの母集団分布に従う確率変数であると考える.

無限母集団

統計学 / 機械学習では、どちらかといえば、無限母集団 を考えることが多いので、 母集団分布は、有限母集団におけるヒストグラムや相対頻度よりも、確率分布  f(x) を考えることが多い.

標本  X_1,\ \cdots,\ X_n は、同一の母集団分布  f(x) に従う  n 個の独立な確率変数である.



また、 n標本の大きさ (Sample Size) という.

母数

標本の値は母集団分布に従ってばらついている.

その母集団分布についての仮定は以下のケースが考えられる.

  1. 母集団分布が、ある知られた確率分布であることが、理論的・経験的に分かっている場合.
  2. 母集団分布の具体的な形が、事前に知られていない場合.

パラメトリック

例えば、ある事象の母集団分布がポアソン分布であると経験的に分かっているとする.

したがって、標本  X_1,\ \cdots,\ X_n は、独立に、ある  \lambda を持ったポアソン分布  P_{0}(\lambda) に従う.

この  \lambda が分かれば、母集団分布についてすべて知ることができる.

このように、事前に分布が分かり、さらに分布のパラメータ(定数)が分かれば、母集団分布について知ることができる場合を パラメトリックと呼ぶ.

そして、統計的推測で予測する定数を 母数 (Parameter) と呼ぶ.

ノンパラメトリック

いくつかのパラメータで母集団分布を決定できない場合をノンパラメトリックという.

この場合は、よく知られている分布に関わらず広く定義できるパラメータで母集団分布を分析する.

参考