分散

分散とは、偏差平方和をデータの個数で割ったものです。

つまり、データ\(x_i\)の分散は、以下の式で求めることができます。\(\overline{x}\)は、\(x_i\)の平均です。

\[分散=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\]

もしくは、上記の式を変形した以下の式でも分散を求められます。

\[分散=\frac{1}{n}\left ( \sum_{i=1}^{n}x_i^2 \right )-\overline{x}\,^2\]

分散は、データのばらつき具合を表しています。平均から大きく離れているデータが多ければ多いほど、分散は大きくなります。

なお、標準偏差を2乗すると、分散になります。

実例

例えば、以下のデータがあったとします。

生徒番号 身長 偏差
1 160cm -7cm
2 174cm +7cm
3 156cm -11cm
4 181cm +14cm
5 164cm -3cm

このとき、分散は、以下のように求めることができます。

\[\frac{(-7)^2+7^2+(-11)^2+14^2+(-3)^2}{5}=\frac{424}{5}=84.8\,[\mathrm{cm}^2]\]

分散の変形式の導出方法

まず、変形前の分散の式は、以下です。

\[分散=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\]

括弧を展開します。

\[=\frac{1}{n}\sum_{i=1}^{n}(x_i^2-2x_i\overline{x}+\overline{x}\,^2)\]

このとき、以下の式が成り立ちます。

\[\frac{1}{n}\sum_{i=1}^{n}(x_i\overline{x})=\overline{x}\,^2\]

\[\frac{1}{n}\sum_{i=1}^{n}(\overline{x}\,^2)=\overline{x}\,^2\]

よって、以下の式を導出できます。

\[=\frac{1}{n}\left ( \sum_{i=1}^{n}x_i^2 \right )-\overline{x}\,^2\]