この記事の読者

統計学の基礎となる「回帰分析」について知りたい.

Index

Index
回帰分析とは
回帰方程式
- 単回帰と重回帰
- 線形基底関数モデル
母回帰係数 / Parameter
誤差項 / Error
- 確率モデル
  - 誤差の確率分布
  - 目的変数の確率分布
パラメータ空間
まとめ
参考

回帰分析とは

回帰分析 / Regression Analysis は、
2 変数 $X, Y$ のデータがあるとき回帰方程式と呼ばれる「説明の関係を定量的に表す式」
を求めることを目的とする分析手法.

回帰分析 #まとめ編
- yhayato1320.hatenablog.com

説明変数と目的変数

説明される変数を $Y$ で表し、これを 目的変数 (被説明変数 / 従属変数 / 内生変数)と呼ぶ.

また、説明する変数を $X$ で表し、これを 説明変数 (独立変数 / 外生変数) と呼ぶ.

目的

回帰分析の目的は、
$X$ と $Y$ との定量的な関係の構造 (モデル : Model) を求めること(=モデリング)である.

しかし、注意するべき点は、
「 $Y$ を $X$ で説明しようとすること」であり、
「 $X$ と $Y$ との間に関係があるかどうか」を調べる相関分析とは、この点において本質的に異なる.

例1

いきなりだが、理解を円滑に進めるために、例を考える.

以下のデータは、1979年 5月 7日から 26日までの「東京の気圧」と「前日の福岡における日平均海面気圧」のデータである.

天候は西から東へ変化するから、東京の気圧を予測する上で
前日の福岡の気圧は重要なデータであると考えられる.

つまり、この間の関係を分析することは東京の天気予報を行う上で役に立つと考えられる.

以下は表のデータをグラフ化したものである.

ここでは、「前日の福岡における日平均海面気圧」を 説明変数 $X$ 、
「東京の気圧」を目的変数 $Y$ とする.

この図から、「東京の気圧」について以下のようなことがわかる.

【 1 】. 福岡の前日の気圧が増加するに従って増加する傾向がある.
【 2 】. 福岡の前日の気圧が同一であってもばらつきがある.

変数定義

説明変数: $x$

$D$ 個 / 次元の説明変数を持つ観測
$n$ 番目の観測: $x_{n}\ =\ (x_{n}^{1},\ \cdots,\ x_{n}^{D})$

目的変数: $y$

データセット: $D\ =\ \{\ (x_1,\ y_1),\ \cdots,\ (x_N,\ y_N)\ \}$

$N$ 個の観測

回帰方程式

例1 から Y を X で表現する (モデル化する / 説明する) には、
以下の 2 つの要素が含まれていることがわかる.

【 1 】. 「東京の気圧」が「福岡の気圧」によって変化する部分
【 2 】. それ以外のばらつきの部分

【 1 】の変化の部分のみを数式で表すと以下のようになる.

$y\ =\ f(x)\ =\ \beta_{0}\ +\ \beta_{1}\ x \tag{1}$

これを回帰方程式 / 回帰関数と呼ぶ. ( $\beta_0, \beta_1$ は回帰係数という.)

そして、この関数が線形関数である場合は線形回帰モデル / Linear Regression、
それ以外のものを 非線形回帰モデル / Non Linear Regressionと呼ぶ.

単回帰と重回帰

例1 の場合、説明変数は 1 種類のみだが、データ分析を行う上で説明変数が複数ある場合もある.

複数の説明変数で回帰方程式を表した場合、重回帰 という.

それに対して、説明変数は 1 種類のみの場合は単回帰という.

重回帰
- yhayato1320.hatenablog.com

$D$ 個 (次元) の説明変数を観測があるとすると、

$y\ =\ f(x)\ =\ \beta_0\ +\ \beta_1 x^{1}\ +\ \cdots\ +\ \beta_D x^{D} \tag{1.1}$

機械学習の分野では、「回帰モデル」といった場合、
一般化して「説明変数 $D$ 個の重回帰」を指すことが多い.

$D=1$ とすれば単回帰になるので、わざわざ分ける必要もないだろうということなのかも.

線形基底関数モデル

また、回帰方程式のモデル化・数式化において、式 (1.1) のように
説明変数 (入力変数) $x_i$ に関する線形関数になってる場合、
目的変数への表現が制限されている (表現が乏しい) ということになる.

そこで、非線形な関数を導入して、
非線形な関数の線形結合で回帰方程式を表現することで、
モデルを拡張・一般化することができる.

線形基底関数モデル / Liner Basis Function Models
- 非線形回帰
- yhayato1320.hatenablog.com

母回帰係数 / Parameter

では、【 2 】のばらつきの部分について、考えることに戻ろう.

例1 の観測されたデータについて、 $i$ 番目の「東京の気圧」を $y_i$ 、「前日の福岡の気圧」を $x_i$ とする.

ばらつきの部分を $\epsilon_i$ とおくと、母集団において、以下のように表現できる.

$y_i\ =\ \beta_0\ +\ \beta_1 x_i\ +\ \epsilon_i \tag{2}$

このモデルを母回帰方程式 / Population Regression Equation と呼び、
$\beta_0, \beta_1$ を母回帰係数 / Population Regression Conefficient と呼ぶ.

母回帰係数は、母集団の値であるから一般にはわからない.

母集団
- yhayato1320.hatenablog.com

これについて推定、検定するのが回帰分析である.

ただし、 $x_{i}$ は確率変数ではなく、すでに確定した値があることに注意.

誤差項 / Error

また、 $\epsilon_i$ は誤差 (項) / Error Term と呼ばれている.

ノイズと表現することもある.

この回帰方程式と観測データとの誤差を最小にするパラメータを計算・推定する手法の一つとして、最小二乗法がある.

最小二乗法

yhayato1320.hatenablog.com

確率モデル

この誤差を確率変数と考えることもできる.

確率変数
- yhayato1320.hatenablog.com

そのとき、次の 3 つの条件を満たす確率変数であると考える.

( a ). 期待値は $0$ になる.

$E[ \epsilon_i ]\ =\ 0,\ \ \ i\ =\ 1, 2, \cdots, n$

( b ). 分散は一定で $\sigma^{2}$

$V ( \epsilon_i )\ =\ \sigma^{2},\ \ \ i\ =\ 1, 2, \cdots, n$

( c ). 異なった誤差項は無相関 (互いに関与しない)

$i\ \neq\ j\ \Rightarrow\ Cov(\epsilon_i, \epsilon_j)\ =\ E[\epsilon_i\ \epsilon_j]\ =\ 0$

このことは、式 (2) のモデルの期待値が、

$E[y_i]\ =\ \beta_0\ +\ \beta_1 x_i,\ \ \ i\ =\ 1, 2, \cdots, n$

となることを意味している.

期待値・分散
- yhayato1320.hatenablog.com

誤差の確率分布

上のように、ある特定の確率分布の確率変数であると考えている.

$\epsilon\ \sim\ p(\epsilon)$

上の誤差項の条件では、平均 $0$ 、分散 $\sigma^{2}$ の正規分布 (ガウス分布)ということになる.

ガウス分布のノイズの場合は、ガウスノイズのように呼ぶ.

ガウス分布
- yhayato1320.hatenablog.com

$\epsilon\ \sim\ p(\epsilon)\ =\ N(0,\ \sigma^{2})$

誤差の分布の形が不明である場合は、誤差分布のモデルとしてガウス分布が利用されることが多い.

これは、必ずしもガウス分布に従わない互いに独立な誤差でも、その総和は中心極限定理によって、ガウス分布に近づくからである.

中心極限定理

yhayato1320.hatenablog.com

目的変数の確率分布

誤差に確率分布を仮定したので、目的変数の確率分布も考えられる.

上の関係式と仮定した分布をまとめると以下のようになる.

$\left\{ \begin{array}{ll} y\ =\ f(x)\ +\ \epsilon & \\ \epsilon\ \sim\ p(\epsilon)\ =\ N(0,\ \sigma^{2})& \end{array} \right.$

これから、目的変数 $y$ の確率分布を考える.

$y\ \sim\ p(y)\ =\ N(f(x),\ \sigma^{2})$

$y$ の確率分布は、 $x$ の入力が必要になるので、条件付き確率分布と考えることができる.

$p(y\ |\ x)\ =\ p(y)$

パラメータ空間

ではでは、パラメータを確率変数として扱う、ベイズ統計を考えてみる.

ベイズ確率
- yhayato1320.hatenablog.com

ベイズ回帰
- yhayato1320.hatenablog.com

まとめ

目的変数を説明変数で表現する回帰方程式を使って、関係性をモデル化する
係数を推定することで、未知の目的変数を推定することができる

参考

統計学入門東京大学出版
- 13 回帰分析
  - 13.1 回帰分析
- 統計学入門 (基礎統計学Ⅰ)
  - 東京大学出版会
  Amazon
多変量解析入門
- 2 線形回帰モデル
  - 2.1 2変数間の関係を捉える
    - 2.1.1 データとモデル
- 多変量解析入門――線形から非線形へ
  - 作者:小西貞則
  - 岩波書店
  Amazon
ガウス過程と機械学習
- 0 たった 5 分でガウス過程法が分かってしまう
  - 0.2 回帰と最小二乗法
  - 0.3 確率モデリングとベイズ推定
- 1 線形回帰モデル
- ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)
  - 作者:持橋大地,大羽成征
  - 講談社
  Amazon
パターン認識と機械学習上
- 3 線形回帰モデル
  - 3.1 線形基底関数モデル
- パターン認識と機械学習上
  - 作者:C.M. ビショップ
  - 丸善出版
  Amazon

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】回帰分析 #アルゴリズム編 #01