オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】確率

この記事の読者

統計学の基礎となる「確率」について知りたい



キーワード・知ってると理解がしやすい

Index

確率の定義

確率とは、事象の起こりやすさ定量的に示すもので、 事象  A のおこる確率を Probability の頭文字をとって  P(A) で表す.

確率とは、どのようなものであるかという点について3つ (4つ) の立場の定義を記す.

ラプラスの定義

初期の確率論はさいころ、カードなどを使った賭けのゲームや保険といったものと関連して発生し、パスカル・ベルヌーイ・ベイズなどの多くの学者の 手によって発展したが、これらはラプラス (1749 ~ 1827) によってまとめられた.

ラプラスによる確率の定義は単純明快であり、

試行の事象が全部で  N 個あって、それらは同程度に確からしとする.

このとき、一つの事象  A にとって都合のよいような事象の数が  R 個あれば、事象  A の確率は

P(A)\ =\ \displaystyle \frac{R}{N}


と定義される.



というもの.

この定義の最大の利点は、確率が標本の個数、つまり、起こり方の場合の数の数え上げに帰することであり、 順列、組み合わせの諸定理が使えること.

ここで問題となるのは、各標本 (観測されたデータ) 点が「同程度に確からしく」起ると仮定していること.

例えば、さいころ投げの場合は、 1 ~  6 の目が同じ程度の確かさで出現すると仮定しているが、 これがはたして本当に正しいかどうかは証明したわけではない.

しかしながら、さいころとはそうゆうものであるからという理由で、われわれは1 ~ 6 までの目が同程度の確かさで、出現すると信じるしかない.

これを、一般に理由不十分の原則という.

頻度主義の定義

ラプラスの定義は、さいころやカードを使ったゲームやくじ引きといったものに対しては有益であるが、 各標本点が「同程度に確からしく」起りやすいと考えられない場合には用いることができない.

これより実際的な定義が、頻度による確率の定義、確率の頻度説である.

さいころを何百回も投げ、 1 が出た回数(頻度)を数えて、その割合(相対頻度)を記録するという実験をを考える.

いま投げる回数を  n 回とすると、 n \rightarrow \infty のとき

 \displaystyle \frac{n_1}{n}\ \rightarrow\ \frac{1}{6}


となることが予想される.

このように、一般に事象  A を生み得る実験を  n 回繰返して  An_A 回出るとすると、 n \rightarrow \infty のとき、

 \displaystyle \frac{n_A}{n}\ \rightarrow\ \alpha


となるならば、 P(A)\ =\ \alpha と定義される.



相対頻度  \displaystyle \frac{n_A}{n} の極限による確率のこの定義が、確率の頻度説である.

しかしながら、この定義も完全なものではない.

極限への収束は無限に試行を続けてはじめて確認されるものであるからだ.

また、仮にそれが可能としても、実験を行うごとに値 \alpha が同じという保証はない.

したがって、頻度説も理論上の仮定の上に成り立っている.

確率の公理主義的定義

上の2つの定義にはそれぞれ理論的に不完全な部分があるため、いずれも、理論的に完全ではない.

  • ラプラスの定義
    • 「同程度に確からしい」という点の仮定が必要
  • 頻度主義の定義
    • 極限への収束が必要



数学者 コルモゴフ の確率の公理主義的定義は、「確率」を公理として定義することにより、上のような困難を避けることに成功した.

  • すべての事象 A に対して  0\ \leq\ P(A)\ \leq\ 1
  •  P(\Omega)\ =\ 1
  • 互いに排反は事象  A_1,\ A_2,\ A_3,\ \cdots に対して、
    P(A_1 \cup A_2 \cup A_3 \cup \cdots)\ =\ P(A_1)\ +\ P(A_2)\ +\ P(A_3)\ +\ \cdots



この公理は、あくまでも数学的なモデルのためのものであるが、この公理とそれに基づく確率論は ラプラスの定義や頻度的確率の性質などがその背景になっており、これらを体系的に表すことを目的としている.

(特に最後の項目は、「確率」がある特別の種類の測度であることを要請したもの.)

ベイズ主義の定義 (主観確率 / ベイズ確率)

ラプラスの定義」や「頻度主義の定義」では、

  • ある事象 A の起る確率 P(A) を同程度の確かさで起ると仮定したり
  • 生起回数の相対頻度から求めたり

としていたが、これは誰が計算しても同一の値であり、客観的に決定される.

これを客観説の立場と呼ぶ.

これに対して、研究者が主観的にある確率を与えて分析を行う方法がある.

この方法では与えられる確率は研究者の得られる情報、知識、経験などによって異なる可能性があり、 主観確率と呼ばれる.

この主観確率はまだ起こっていない事象の分析も可能になるなどの利点も多くある.



この主観確率に基づく統計分析は、ベイズ統計学と呼ばれる.

パターン認識 / 機械学習における確率論

パターン認識の分野における重要な概念は不確実性である.

これは計測ノイズやデータ集合のサイズが有限であることによって起きる.

確率論は不確実性に関する定量化と操作に関して一貫した枠組みを与え、パターン認識の基礎の中心を担っている.

また、決定理論と組み合わせることにより与えられた情報が不完全で曖昧なものであっても、 そのすべての情報の下で最適な予測をすることが可能になる.

統計学の分類

まとめ

  • 確率は大きく分けると2種類の考え方がある
  • それぞれの考え方は、統計解析をする場面で適用方法を分けて利用することで、利用シーンが広がる

参考

Web サイト