2016年08月28日

データの標準化とは? / データ分析の解説

実際のデータを分析していくと、色々な種類のデータの分布の様子を比較したりする場合があります。例えば身長と体重の様な異なる単位のデータや数学の点数と国語の点数の様に単位は同じでも条件が異なるデータとか、、
そのような時にいわゆる同じ土俵に上げないと比較出来ません。そのために予めデータを揃えて(変換して)同じ土俵に上がるようにしておきます。
その様にデータを変換することを、標準化(Standerdinze)と言って、標準化されたデータを"標準化係数"、"標準化得点"、"z得点"等と言われます。

で、どうデータをそろえるかと言うと、変換後のデータの平均値が"0"、標準偏差が"1"になるようにそれぞれのデータから元のデータの平均値を引いて、元のデータの標準偏差で割ります。ここで、標準偏差で割っているので標準化されたデータは無次元量(単位が無い)になります。ので、身長と体重も比較できるようになるわけです。
20160828_00.jpg
ちなみに、データが正規分布の場合、標準化したデータ、平均値が"0"、標準偏差が"1"の正規分布を"標準正規分布"(Standard normal distribution)と言います。

Excelで、標準化したデータの平均値と標準偏差を求めてみましょう。
こんなデータがあります。
平均値と標準偏差をAVERAGE関数、STDEV関数で予め求めておきます。
20160828_01.JPG

標準化データを計算します。
其々のデータから平均値を引いて標準偏差で割ります。
すると、その平均が"0"、標準偏差は"1"になりました。
20160828_02.JPG

Excelではデータを標準化するSTANDERDIZE関数と言うのがあります。
てっきり、元データの範囲を指定すると平均値や標準偏差も計算してデータを標準化してくれるのかな?と思ったのですが、平均値と標準偏差は別途計算しておきそれを引数として引用するだけなので、あまりメリットはなさそう。。
20160828_03.JPG

んで、データを標準化すると標準正規分布になるわけではないので誤解の無いように。。

では、次回は標準正規分布を変形した偏差値についてまとめてみました。
20150301_01.jpg



バックナンバー
分散と標準偏差(ばらつき)についてまとめてみた
データの変動と分散についてまとめてみた

関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
データ分析の解説/メニュー
ラベル:標準化
posted by haku1569 at 17:45| データ分析の解説 | このブログの読者になる | 更新情報をチェックする