オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】確率

この記事の読者


統計学の基礎となる「確率」について知りたい



キーワード・知ってると理解がしやすい

  • 事象
  • 場合の数、順列、組み合わせ
  • 極限
  • 測度論



Index

確率の定義

確率とは、事象の起こりやすさを定量的に示すもので
事象Aのおこる確率をprobability の頭文字をとって P(A) で表します

では、確率とはいったいどのようなものであるかという点について3つの立場の定義を記していきます

ラプラスの定義

初期の確率論はさいころ、カードなどを使った賭けのゲームや保険といったものと関連して発生し、パスカル・ベルヌーイ・ベイズなどの多くの学者の 手によって発展したが、これらはラプラス(1749 ~ 1827)によってまとめられました

ラプラスによる確率の定義は単純明快であり、

試行の事象が全部でN個あって、それらは同程度に確からしとする. このとき、一つの事象 A にとって都合のよいような事象の数が R 個あれば、 事象 A の確率は
P(A)\ =\ \displaystyle \frac{R}{N}
と定義される


というものであります

この定義の最大の利点は、確率が標本の個数、つまり、起こり方の場合の数の数え上げに帰することであり、 順列、組み合わせの諸定理が使えることです. ここで問題となるのは、各標本点が「同程度に確からしく」起ると仮定していることです. 例えば、さいころ投げの場合は、1 ~ 6 の目が同じ程度の確かさで出現すると仮定しているが、 これがはたして本当に正しいかどうかは証明したわけではありません. しかしながら、さいころとはそうゆうものであるからという理由で、われわれは1 ~ 6 までの目が同程度の確かさで、出現すると信じるしかないのです. これを、一般に理由不十分の原則といいます.

頻度主義の定義

ラプラスの定義は、さいころやカードを使ったゲームやくじ引きといったものに対しては有益であるが、 各標本点が「同程度に確からしく」起りやすいと考えられない場合には用いることができません. これより実際的な定義が、頻度による確率の定義、確率の頻度説であります

さいころを何100回もなげ、1が出た回数(頻度)を数えて、その割合(相対頻度)を記録するという実験をを考えます.

いま投げる回数を n 回とすると、 n \rightarrow \infty のとき
 \displaystyle \frac{n_1}{n}\ \rightarrow\ \frac{1}{6}
となることが予想される
このように、一般に事象 A を生み得る実験を n 回繰返して A が n_A 回出るとすると、 n \rightarrow \infty のとき、
 \displaystyle \frac{n_A}{n}\ \rightarrow\ \alpha
となるならば、 P(A)\ =\ \alpha と定義される


相対頻度  \displaystyle \frac{n_A}{n} の極限による確率のこの定義が、確率の頻度説です

しかしながら、この定義も完全なものではありません. 極限への収束は無限に試行を続けてはじめて確認されるものであるからです. また、仮にそれが可能としても、実験を行うごとに値 \alpha が同じという保証はありません. したがって、頻度説も理論上の仮定の上に成り立っているのです.

確率の公理主義的定義

上の2つの定義にはそれぞれ理論的に不完全な部分があるため、いずれも、理論的に完全ではありません.

  • ラプラスの定義
    • 「同程度に確からしい」という点の仮定が必要
  • 頻度主義の定義
    • 極限への収束が必要


数学者 コルモゴフ の確率の公理主義的定義は、「確率」を公理として定義することにより、上のような困難を避けることに成功しました

  • すべての事象 A に対して  0\ \leq\ P(A)\ \leq\ 1
  •  P(\Omega)\ =\ 1
  • 互いに排反は事象  A_1,\ A_2,\ A_3,\ \cdots に対して、
    P(A_1 \cup A_2 \cup A_3 \cup \cdots)\ =\ P(A_1)\ +\ P(A_2)\ +\ P(A_3)\ +\ \cdots


この公理は、あくまでも数学的なモデルのためのものであるが、この公理とそれに基づく確率論は ラプラスの定義や頻度的確率の性質などがその背景になっており、これらを体系的に表すことを目的としてます (特に最後の項目は、「確率」がある特別の種類の測度であることを要請したものです)

ベイズ主義の定義 (主観確率)

ラプラスの定義」や「頻度主義の定義」では、ある事象 A の起る確率 P(A) を同程度の確かさで起ると仮定したり、 生起回数の相対頻度から求めたりしたが、これはだれが計算しても同一の値であり、客観的に決定されます. これを客観説の立場と呼びます.

これに対して、研究者が主観的にある確率を与えて分析を行う方法がある. この方法では与えられる確率は研究者の 得られる情報、知識、経験などによって異なる可能性があり、主観確率と呼ばれます. この主観確率はまだ起こっていない事象の分析も可能になるなどの利点も多くあります. この主観確率に基づく統計分析は、ベイズ統計学と呼ばれます.

このベイズ統計学については、ベイズの定理でまとめてみます.

yhayato1320.hatenablog.com

パターン認識における確率論

パターン認識の分野における重要な概念は不確実性です. これは計測ノイズやデータ集合のサイズが有限であることによって起きます. 確率論は不確実性に関する定量化と操作に関して一貫した枠組みを与え、パターン認識の基礎の中心を担っています. また、決定理論と組み合わせることにより与えられた情報が不完全で曖昧なものであっても、 そのすべての情報の下で最適な予測をすることが可能になります.

まとめ

  • 確率は大きく分けると2種類の考え方がある
  • それぞれの考え方は、統計解析をする場面で適用方法を分けて利用することで、利用シーンが広がる

参考

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 発売日: 1991/07/09
  • メディア: 単行本

パターン認識と機械学習 上

パターン認識と機械学習 上