この記事の読者
Index
回帰分析とは
回帰分析 / Regression Analysis は、
2 変数 のデータがあるとき回帰方程式と呼ばれる「説明の関係を定量的に表す式」
を求めることを目的とする分析手法.
- 回帰分析 #まとめ編
説明変数と目的変数
説明される変数を で表し、これを 目的変数 (被説明変数 / 従属変数 / 内生変数)と呼ぶ.
また、説明する変数を で表し、これを 説明変数 (独立変数 / 外生変数) と呼ぶ.
目的
回帰分析の目的は、
と との定量的な関係の構造 (モデル : Model) を求めること(=モデリング)である.
しかし、注意するべき点は、
「 を で説明しようとすること」であり、
「 と との間に関係があるかどうか」を調べる相関分析とは、この点において本質的に異なる.
例1
いきなりだが、理解を円滑に進めるために、例を考える.
以下のデータは、1979年 5月 7日から 26日までの
「東京の気圧」と「前日の福岡における日平均海面気圧」のデータである.
天候は西から東へ変化するから、東京の気圧を予測する上で
前日の福岡の気圧は重要なデータであると考えられる.
つまり、この間の関係を分析することは東京の天気予報を行う上で役に立つと考えられる.
以下は表のデータをグラフ化したものである.
ここでは、「前日の福岡における日平均海面気圧」を 説明変数 、
「東京の気圧」を目的変数 とする.
この図から、「東京の気圧」について以下のようなことがわかる.
【 2 】. 福岡の前日の気圧が同一であってもばらつきがある.
変数定義
- 説明変数:
- 個 / 次元 の説明変数を持つ観測
- 番目の観測:
- 目的変数:
- データセット:
- 個の観測
回帰方程式
例1 から Y を X で表現する (モデル化する / 説明する) には、
以下の 2 つの要素が含まれていることがわかる.
【 2 】. それ以外のばらつきの部分
【 1 】 の変化の部分のみを数式で表すと以下のようになる.
これを回帰方程式 / 回帰関数と呼ぶ.
( は回帰係数という.)
そして、この関数が線形関数である場合は線形回帰モデル / Linear Regression、
それ以外のものを 非線形回帰モデル / Non Linear Regressionと呼ぶ.
単回帰と重回帰
例1 の場合、説明変数は 1 種類のみだが、
データ分析を行う上で説明変数が複数ある場合もある.
複数の説明変数で回帰方程式を表した場合、重回帰 という.
線形基底関数モデル
また、回帰方程式のモデル化・数式化において、式 (1.1) のように
説明変数 (入力変数) に関する線形関数になってる場合、
目的変数への表現が制限されている (表現が乏しい) ということになる.
そこで、非線形な関数を導入して、
非線形な関数の線形結合で回帰方程式を表現することで、
モデルを拡張・一般化することができる.
- 線形基底関数モデル / Liner Basis Function Models
母回帰係数 / Parameter
では、【 2 】 のばらつきの部分について、考えることに戻ろう.
例1 の観測されたデータについて、
番目の「東京の気圧」を 、「前日の福岡の気圧」を とする.
ばらつきの部分を とおくと、母集団において、以下のように表現できる.
このモデルを母回帰方程式 / Population Regression Equation と呼び、
を母回帰係数 / Population Regression Conefficient と呼ぶ.
これについて推定、検定するのが回帰分析である.
誤差項 / Error
また、 は誤差 (項) / Error Term と呼ばれている.
確率モデル
この誤差を確率変数と考えることもできる.
そのとき、次の 3 つの条件を満たす確率変数であると考える.
( b ). 分散は一定で
( c ). 異なった誤差項は無相関 (互いに関与しない)
このことは、式 (2) のモデルの期待値が、
となることを意味している.
- 期待値・分散
誤差の確率分布
上のように、ある特定の確率分布の確率変数であると考えている.
上の誤差項の条件では、平均 、分散 の正規分布 (ガウス分布)ということになる.
これは、必ずしもガウス分布に従わない互いに独立な誤差でも、その総和は中心極限定理によって、 ガウス分布に近づくからである.
目的変数の確率分布
誤差に確率分布を仮定したので、目的変数の確率分布も考えられる.
これから、目的変数 の確率分布を考える.
パラメータ空間
ではでは、パラメータを確率変数として扱う、ベイズ統計を考えてみる.
まとめ
- 目的変数を説明変数で表現する回帰方程式を使って、関係性をモデル化する
- 係数を推定することで、未知の目的変数を推定することができる