標準化とは何か?

Uncategorized

結論

標準化とは、データのスケールをそろえることです。標準化を行うことで、平均値を0、分散を1にそろえることができ、データを分析しやすくなります。

はじめに

鹿
鹿

今日は標準化について解説するよ!

たかしくん
たかしくん

??? なんすか、「ひょーじゅんか」って?

鹿
鹿

大丈夫、あんまり難しくないよ。例を通して理解していこう。

標準化しないとどうなる?

たとえば、ここにこんな体重のデータがあったとします。

体重(kg)
Aさん40
Bさん50
Cさん50
Dさん60
鹿
鹿

このデータの平均値と分散が分かるかな?

たかしくん
たかしくん

平均値は50kgだ!

分散は偏差の2乗の平均だから…50だ!

鹿
鹿

そうだね。じゃあ、こんなデータだったらどうかな?

体重(g)
Aさん40000
Bさん50000
Cさん50000
Dさん60000
たかしくん
たかしくん

えーと、平均が50000で、分散は50000000かな?

鹿
鹿

よくできました!

さて、お気づきかもしれませんが、上記の2つの表は体重の単位が違うだけで、表している内容は同じです。ですが、単位が違うことによって、平均値と分散の数字が変わってしまっています。

たかしくん
たかしくん

同じデータのはずなのに数字が違うなんて、ややこしいよー!

鹿
鹿

そうだね。そうならないために、統計では「標準化」という方法を使ってデータのスケールを統一するよ。

標準化をしてみよう

標準化の方法は簡単で、以下の2つのステップを踏むだけです。

  1. すべてのデータを、平均値ぶん引き算します。
  2. すべてのデータを、標準偏差ぶん割り算します。
鹿
鹿

実際にやってみよう。

まずは、もとのデータです。

体重(kg)
Aさん40
Bさん50
Cさん50
Dさん60

平均は50なので、全てのデータから50を引きます。

体重
Aさん-10
Bさん0
Cさん0
Dさん10

つぎに、全てのデータを標準偏差で割ります。標準偏差は分散の正の平方根なので、

$$ \sqrt{50} = 5\sqrt{2} $$

です。

体重
Aさん\( -\sqrt{2} \)
Bさん0
Cさん0
Dさん\( \sqrt{2} \)
たかしくん
たかしくん

こうかな?

鹿
鹿

そうだね。ところで、このデータの平均値と分散はどうなるかな?

たかしくん
たかしくん

平均が0で、分散が1になった!

このように、データの平均値を0、分散を1に揃えることができます。ちなみに、今回は単位がkgの方のデータを標準化してみましたが、単位がgの方のデータを標準化しても同じ結果になります。

たかしくん
たかしくん

こうやってデータのスケールを合わせることができるんだね。でも、どうしてこの方法でうまくいくのかな?

鹿
鹿

その仕組みについては省略するけど、頑張って数式をいじれば証明できるよ。

まとめ

標準化は、スケールの違うデータのスケールをそろえることです。全てのデータを平均値で引き、標準偏差で割ることによって、平均値を0、分散を1にそろえることができます。

タイトルとURLをコピーしました