分散とは、偏差平方和をデータの個数で割ったものです。
つまり、データ\(x_i\)の分散は、以下の式で求めることができます。\(\overline{x}\)は、\(x_i\)の平均です。
\[分散=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\]
もしくは、上記の式を変形した以下の式でも分散を求められます。
\[分散=\frac{1}{n}\left ( \sum_{i=1}^{n}x_i^2 \right )-\overline{x}\,^2\]
分散は、データのばらつき具合を表しています。平均から大きく離れているデータが多ければ多いほど、分散は大きくなります。
なお、標準偏差を2乗すると、分散になります。
例えば、以下のデータがあったとします。
生徒番号 | 身長 | 偏差 |
---|---|---|
1 | 160cm | -7cm |
2 | 174cm | +7cm |
3 | 156cm | -11cm |
4 | 181cm | +14cm |
5 | 164cm | -3cm |
このとき、分散は、以下のように求めることができます。
\[\frac{(-7)^2+7^2+(-11)^2+14^2+(-3)^2}{5}=\frac{424}{5}=84.8\,[\mathrm{cm}^2]\]
まず、変形前の分散の式は、以下です。
\[分散=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\]
括弧を展開します。
\[=\frac{1}{n}\sum_{i=1}^{n}(x_i^2-2x_i\overline{x}+\overline{x}\,^2)\]
このとき、以下の式が成り立ちます。
\[\frac{1}{n}\sum_{i=1}^{n}(x_i\overline{x})=\overline{x}\,^2\]
\[\frac{1}{n}\sum_{i=1}^{n}(\overline{x}\,^2)=\overline{x}\,^2\]
よって、以下の式を導出できます。
\[=\frac{1}{n}\left ( \sum_{i=1}^{n}x_i^2 \right )-\overline{x}\,^2\]