オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【統計学】相関係数

Index

相関関係

2 つの変数間の関係のことを、一般に相関関係と呼ぶが、
とくに統計学では、2 つの変数間の間に直接関係に近い傾向が見られる場合 「相関関係」があるということが多い.

相関係数

2 つの変数の関係に相関関係が見られたときに、どのような尺度でそれを表せば良いかを考えたい.

そこで、その尺度を相関係数 (Correlation Coefficient)とする.

積率相関係数

相関係数とは、相関の程度を表す指標のことであり、多くの定義があるが、
よく利用されるのが積率相関係数である.

2 変数のデータの組み  (x_1,\ y_1),\ \cdots,\ (x_n,\ y_n) で与えられた場合、
変数  x, y相関係数は以下のように定義する.
 
\begin{align}
r_{xy}\ &=\ \displaystyle \frac{ \displaystyle \frac{1}{n} \displaystyle \sum_{i}\ (x_{i} - \bar{x}) (y_{i} - \bar{y}) }
{\sqrt{\displaystyle \frac{1}{n} \displaystyle \sum_{i} (x_{i} - \bar{x})^{2} } 
\sqrt{\displaystyle \frac{1}{n} \displaystyle \sum_{i} (y_{i} - \bar{y})^{2} }} \tag{1} \\

\\

&=\ \displaystyle \frac{\displaystyle \sum_{i}\ (x_{i} - \bar{x}) (y_{i} - \bar{y}) }
{\sqrt{\displaystyle \sum_{i} (x_{i} - \bar{x})^{2} } \sqrt{\displaystyle \sum_{i} (y_{i} - \bar{y})^{2} }} \tag{2}

\end{align}


式 (1) の分母はそれぞれ、  x,\ y標準偏差で、
分子は、共分散.

参考