結論
標準化とは、データのスケールをそろえることです。標準化を行うことで、平均値を0、分散を1にそろえることができ、データを分析しやすくなります。
はじめに
今日は標準化について解説するよ!
??? なんすか、「ひょーじゅんか」って?
大丈夫、あんまり難しくないよ。例を通して理解していこう。
標準化しないとどうなる?
たとえば、ここにこんな体重のデータがあったとします。
体重(kg) | |
Aさん | 40 |
Bさん | 50 |
Cさん | 50 |
Dさん | 60 |
このデータの平均値と分散が分かるかな?
平均値は50kgだ!
分散は偏差の2乗の平均だから…50だ!
そうだね。じゃあ、こんなデータだったらどうかな?
体重(g) | |
Aさん | 40000 |
Bさん | 50000 |
Cさん | 50000 |
Dさん | 60000 |
えーと、平均が50000で、分散は50000000かな?
よくできました!
さて、お気づきかもしれませんが、上記の2つの表は体重の単位が違うだけで、表している内容は同じです。ですが、単位が違うことによって、平均値と分散の数字が変わってしまっています。
同じデータのはずなのに数字が違うなんて、ややこしいよー!
そうだね。そうならないために、統計では「標準化」という方法を使ってデータのスケールを統一するよ。
標準化をしてみよう
標準化の方法は簡単で、以下の2つのステップを踏むだけです。
- すべてのデータを、平均値ぶん引き算します。
- すべてのデータを、標準偏差ぶん割り算します。
実際にやってみよう。
まずは、もとのデータです。
体重(kg) | |
Aさん | 40 |
Bさん | 50 |
Cさん | 50 |
Dさん | 60 |
平均は50なので、全てのデータから50を引きます。
体重 | |
Aさん | -10 |
Bさん | 0 |
Cさん | 0 |
Dさん | 10 |
つぎに、全てのデータを標準偏差で割ります。標準偏差は分散の正の平方根なので、
$$ \sqrt{50} = 5\sqrt{2} $$
です。
体重 | |
Aさん | \( -\sqrt{2} \) |
Bさん | 0 |
Cさん | 0 |
Dさん | \( \sqrt{2} \) |
こうかな?
そうだね。ところで、このデータの平均値と分散はどうなるかな?
平均が0で、分散が1になった!
このように、データの平均値を0、分散を1に揃えることができます。ちなみに、今回は単位がkgの方のデータを標準化してみましたが、単位がgの方のデータを標準化しても同じ結果になります。
こうやってデータのスケールを合わせることができるんだね。でも、どうしてこの方法でうまくいくのかな?
その仕組みについては省略するけど、頑張って数式をいじれば証明できるよ。
まとめ
標準化は、スケールの違うデータのスケールをそろえることです。全てのデータを平均値で引き、標準偏差で割ることによって、平均値を0、分散を1にそろえることができます。