オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】回帰分析 #アルゴリズム編 #01

この記事の読者

統計学の基礎となる「回帰分析」について知りたい.

Index

回帰分析とは

回帰分析 / Regression Analysis は、
2 変数  X, Y のデータがあるとき回帰方程式と呼ばれる「説明の関係を定量的に表す式
を求めることを目的とする分析手法.

説明変数と目的変数

説明される変数を  Y で表し、これを 目的変数 (被説明変数 / 従属変数 / 内生変数)と呼ぶ.

また、説明する変数を  X で表し、これを 説明変数 (独立変数 / 外生変数) と呼ぶ.

目的

回帰分析の目的は、
 X Y との定量的な関係の構造 (モデル : Model) を求めること(=モデリング)である.

しかし、注意するべき点は、
 Y X で説明しようとすること」であり、
 X Y との間に関係があるかどうか」を調べる相関分析とは、この点において本質的に異なる.

例1

いきなりだが、理解を円滑に進めるために、例を考える.

以下のデータは、1979年 5月 7日から 26日までの 「東京の気圧」と「前日の福岡における日平均海面気圧」のデータである.



天候は西から東へ変化するから、東京の気圧を予測する上で
前日の福岡の気圧は重要なデータであると考えられる.

つまり、この間の関係を分析することは東京の天気予報を行う上で役に立つと考えられる.

以下は表のデータをグラフ化したものである.



ここでは、「前日の福岡における日平均海面気圧」を 説明変数  X
「東京の気圧」を目的変数  Y とする.

この図から、「東京の気圧」について以下のようなことがわかる.

【 1 】. 福岡の前日の気圧が増加するに従って増加する傾向がある.
【 2 】. 福岡の前日の気圧が同一であってもばらつきがある.

変数定義

  • 説明変数:  x
    •  D 個 / 次元 の説明変数を持つ観測
    •  n 番目の観測:  x_{n}\ =\ (x_{n}^{1},\ \cdots,\ x_{n}^{D})

  • 目的変数:  y

  • データセット:  D\ =\ \{\ (x_1,\ y_1),\ \cdots,\ (x_N,\ y_N)\ \}
    •  N 個の観測

回帰方程式

例1 から Y を X で表現する (モデル化する / 説明する) には、
以下の 2 つの要素が含まれていることがわかる.

【 1 】. 「東京の気圧」が「福岡の気圧」によって変化する部分
【 2 】. それ以外のばらつきの部分



【 1 】 の変化の部分のみを数式で表すと以下のようになる.

 y\ =\ f(x)\ =\ \beta_{0}\ +\ \beta_{1}\ x \tag{1}



これを回帰方程式 / 回帰関数と呼ぶ. (  \beta_0, \beta_1回帰係数という.)

そして、この関数が線形関数である場合は線形回帰モデル / Linear Regression
それ以外のものを 非線形回帰モデル / Non Linear Regressionと呼ぶ.

単回帰と重回帰

例1 の場合、説明変数は 1 種類のみだが、 データ分析を行う上で説明変数が複数ある場合もある.

複数の説明変数で回帰方程式を表した場合、重回帰 という.

それに対して、説明変数は 1 種類のみの場合は単回帰という.



 D 個 (次元) の説明変数を観測があるとすると、

y\ =\ f(x)\ =\ \beta_0\ +\ \beta_1 x^{1}\ +\ \cdots\ +\ \beta_D x^{D} \tag{1.1}



機械学習の分野では、「回帰モデル」といった場合、
一般化して「説明変数  D 個の重回帰」を指すことが多い.

 D=1 とすれば単回帰になるので、わざわざ分ける必要もないだろうということなのかも.

線形基底関数モデル

また、回帰方程式のモデル化・数式化において、式 (1.1) のように
説明変数 (入力変数)  x_i に関する線形関数になってる場合、
目的変数への表現が制限されている (表現が乏しい) ということになる.

そこで、非線形な関数を導入して、
非線形な関数の線形結合で回帰方程式を表現することで、
モデルを拡張・一般化することができる.

母回帰係数 / Parameter

では、【 2 】 のばらつきの部分について、考えることに戻ろう.

例1 の観測されたデータについて、  i 番目の「東京の気圧」を  y_i、「前日の福岡の気圧」を  x_i とする.

ばらつきの部分を  \epsilon_i とおくと、母集団において、以下のように表現できる.

 y_i\ =\ \beta_0\ +\ \beta_1 x_i\ +\ \epsilon_i \tag{2}



このモデルを母回帰方程式 / Population Regression Equation と呼び、
 \beta_0, \beta_1母回帰係数 / Population Regression Conefficient と呼ぶ.

母回帰係数 は、母集団の値であるから一般にはわからない.



これについて推定、検定するのが回帰分析である.

ただし、 x_{i} は確率変数ではなく、すでに確定した値があることに注意.

誤差項 / Error

また、 \epsilon_i誤差 (項) / Error Term と呼ばれている.

ノイズと表現することもある.



この回帰方程式と観測データとの誤差を最小にするパラメータを 計算・推定する手法の一つとして、最小二乗法がある.

確率モデル

この誤差を確率変数と考えることもできる.

そのとき、次の 3 つの条件を満たす確率変数であると考える.

( a ). 期待値は  0 になる.
 E[ \epsilon_i ]\ =\ 0,\ \ \ i\ =\ 1, 2, \cdots, n

( b ). 分散は一定で  \sigma^{2}
 V ( \epsilon_i )\ =\ \sigma^{2},\ \ \ i\ =\ 1, 2, \cdots, n

( c ). 異なった誤差項は無相関 (互いに関与しない)
 i\ \neq\ j\ \Rightarrow\ Cov(\epsilon_i, \epsilon_j)\ =\ E[\epsilon_i\ \epsilon_j]\ =\ 0



このことは、式 (2) のモデルの期待値が、

 E[y_i]\ =\ \beta_0\ +\ \beta_1 x_i,\ \ \ i\ =\ 1, 2, \cdots, n



となることを意味している.

誤差の確率分布

上のように、ある特定の確率分布の確率変数であると考えている.

 \epsilon\ \sim\ p(\epsilon)



上の誤差項の条件では、平均  0 、分散  \sigma^{2}正規分布 (ガウス分布)ということになる.

ガウス分布のノイズの場合は、ガウスノイズのように呼ぶ.



 \epsilon\ \sim\ p(\epsilon)\ =\ N(0,\ \sigma^{2})



誤差の分布の形が不明である場合は、誤差分布のモデルとしてガウス分布が利用されることが多い.

これは、必ずしもガウス分布に従わない互いに独立な誤差でも、その総和は中心極限定理によって、 ガウス分布に近づくからである.

目的変数の確率分布

誤差に確率分布を仮定したので、目的変数の確率分布も考えられる.

上の関係式と仮定した分布をまとめると以下のようになる.


\left\{
\begin{array}{ll}
y\ =\ f(x)\ +\ \epsilon & \\
\epsilon\ \sim\ p(\epsilon)\ =\ N(0,\ \sigma^{2})&
\end{array}
\right.


これから、目的変数  y の確率分布を考える.

 y\ \sim\ p(y)\ =\ N(f(x),\ \sigma^{2})



 y の確率分布は、 x の入力が必要になるので、条件付き確率分布と考えることができる.

 p(y\ |\ x)\ =\ p(y)

パラメータ空間

ではでは、パラメータを確率変数として扱う、ベイズ統計を考えてみる.



まとめ

  • 目的変数説明変数で表現する回帰方程式を使って、関係性をモデル化する
  • 係数を推定することで、未知の目的変数を推定することができる

参考