共分散とは、2変量のデータ(\(x_i\)と\(y_i\))において、(\(x_i\)の偏差)\(\times \)(\(y_i\)の偏差)の平均のことです。
つまり、共分散は、以下の式で求めることができます。\(\overline{x}\)は\(x_i\)の平均、\(\overline{y}\)は\(y_i\)の平均です。
\[共分散=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})\]
もしくは、上記の式を変形した以下の式でも共分散を求められます。
\[共分散=\left ( \frac{1}{n}\sum_{i=1}^{n}x_iy_i \right )-\overline{x}\, \overline{y}\]
共分散は、2変量のデータをグラフ化した際のばらつきの傾向を示します。
以下に共分散の実例を示します。
以下のグラフをすると、その位置にデータが挿入され、共分散が自動で計算されます。任意の位置にデータを配置して、共分散の挙動を把握することができます。
まず、変形前の共分散の式は、以下です。
\[共分散=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})\]
括弧を展開します。
\[=\frac{1}{n}\sum_{i=1}^{n}\left (x_iy_i-x_i\overline{y}-\overline{x}y_i+\overline{x}\,\overline{y} \right )\]
このとき、以下の式が成り立ちます。
\[\frac{1}{n}\sum_{i=1}^{n}(x_i\overline{y})=\overline{x}\,\overline{y}\]
\[\frac{1}{n}\sum_{i=1}^{n}(\overline{x}y_i)=\overline{x}\,\overline{y}\]
\[\frac{1}{n}\sum_{i=1}^{n}(\overline{x}\,\overline{y})=\overline{x}\,\overline{y}\]
よって、以下の式を導出できます。
\[=\left ( \frac{1}{n}\sum_{i=1}^{n}x_iy_i \right )-\overline{x}\, \overline{y}\]