相関係数

2つの変量を持つ$N$個のデータ $(x_1, y_1), (x_2, y_2),\ldots, (x_N, y_N)$ が与えられたとき, $\overline{x}=\frac1{N}\sum_{i=1}^N x_i$, $\overline{y}=\frac1{N}\sum_{i=1}^N y_i$をそれぞれの平均値とすると, $s_{xy} = \frac1{N} \sum_{i=1}^N (x_i-\overline{x})(y_i-\overline{y})$ を共分散と言います. $s_x=\sqrt{\frac1{N}\sum_{i=1}^N (x_i-\overline{x})^2},~
s_y=\sqrt{\frac1{N}\sum_{i=1}^N (y_i-\overline{y})^2}$をそれぞれ データ$(x_i), (y_i)$の標準偏差と言います. このとき相関係数は $r=\frac{s_{xy}}{s_x x_y}$で定義されます. $-1\leq r \leq 1$が証明され, データ $(x_i), (y_i)$に関係がありそうか否かの数値的な指標になります.

注意してほしいのは, 相関関係と因果関係を混同しないことです. 二つの指標に相関が認められても, その二つは全く無関係であることが 普通にあります(疑似相関).

SUGA Shuichi
2023-07-07