2014年07月26日

お母さんの必見!わが子の偏差値とz値とは/データ分析の解説

偏差値というと試験の成績の評価のひとつとして定着してるけど、ほんとはどんな意味なのか、まとめてみました。

偏差値(standard score)とは、例えばテストの成績(点数)が集団の中でどのくらいの位置(順位ではありません)にあるかを示す無次元の値です。無次元ですから、点数ではありません。
“score”というのは「点数」とか「成績」という意味で日本語の“偏差値”(偏り・差)みたいな意味は英語には一切ありません。。。

ではさっそく、偏差値の具体例をみてみましょう。
国語と数学のテストを行った加藤さんの得点と偏差値です。
20160904_01.jpg
得点は、国語の方が良い点数でした。
ですが、国語と数学では全体の平均点や標準偏差が異なるため学年の中での位置付けはことなります。
それを偏差値を求めると国語と数学を同じ土俵にして位置付けを見ることができます。
その結果、国語よりも数学の方が偏差値は高かったことがわかりました。
つまり加藤さんは国語より数学の方が成績?実力?学力?が高いと言えます。

さて、詳しくみていきましょう。
"分散と標準偏差"で自分のテストの結果が分かっても全体の平均値や標準偏差が分からないと集団の中でどのくらいの位置にいるか分からないと言うことが分かりました。ところが、課目が違うテストや行った日にちが違う別のテストと比較したい場合、課目や試験によって平均値も標準偏差も違うため比較できなくなってしまいます。
そこで、まず前回説明したデータの標準化を行います。これで同じ状態で比較できるようになります。
ここで、大切な大前提は、テストの結果の分布は正規分布になるということです。(正規分布についてはこちらをご覧ください

正規分布のデータを標準化したものを"標準正規分布"と言うわけですが、平均値が"0"、標準偏差が"1"と言うのはテストの結果を評価するにはちと分かり辛いですよね。
と言うことで平均を50、標準偏差を10にした正規分布にした訳です。このデータを偏差値、Z(大文字)得点(Zスコア)と言います。
20150301_01.jpg

z値(標準化データ)(この"z"は小文字です)とは、平均値とのばらつき(偏差)が標準偏差(σ:シグマ)の何倍かという値です。正規分布の場合よく「2σの範囲には95%含まれる」と言われている、あれです。これだけで、十分全体の中の位置が分かるわけですが、とりわけ試験の成績の場合やはり平均が"50"、満点が"100"という値の方が馴染みやすいので"偏差値"はz値を10倍して50を足してそうなるように補正しているだけです。つまり、z値が"2"の偏差値は"2x10+50=70"となります。この偏差値を"Z値"(大文字)と言ったりします。

まず平均を50に合わせます。平均値が違うテストで、得点だけで優劣は比較できないですよね。
平均値を合わせると言うのは、つまり平均の位置を横方向に移動(OFFSET)させるだけなので足し算、引き算で可能です。
20140726_02.jpg

次は、標準偏差を10にします。これもバラつきの分布が異なっていると、同じ平均値の同じ得点でも、集団の中での位置は異なってきます。
20140726_03.jpg

さて、この偏差値の値と集団(平均50、標準偏差10の正規分布)の中での位置づけがどうなるかというと、、、こうなる
20140726_04.jpg
ちなみに、偏差値が"100"っていうのはExcelの"NORMDIST関数"で計算してみると、400万人中1番の人になりますよ!!

ちなみに、東進の林先生のお弟子さんでかつ、「ミス日本コンテスト2015」の準ミス日本の東京大学医学部の秋山果穂さんは高校時代の東大模試で偏差値93.7だったとか!?

さて、ここでもう一度加藤さんに登場していただいて、国語の試験と数学の試験の結果の偏差値を実際に求めてみましょう。
加藤さんの試験の点数は国語が73点、数学が60点でした。国語の方が点数は良かったですが偏差値はどうなんでしょう?
20150222_201.JPG

まずそれぞれの平均値と標準偏差をExcelの関数で求めてみます。
平均値は"AVERAGE関数"で求めます。
20150222_202.JPG

標準偏差は"STDEVP関数"で求めます。
20150222_203.JPG

ちなみに、国語の試験のヒストグラムはこんな感じ
20150222_205.JPG
数学はこうでした
20150222_206.JPG

数学は平均点が低くまたばらつきは小さいことがわかります。
層別だとこうなります。
20150222_207.JPG

ではまず、z値を求めるために"偏差"(点数-平均)を求めます。
20150222_208.JPG

つぎはそれを"標準偏差"でわります。これで"z値"が求められました。
20150222_209.JPG

つぎは偏差値です。z値に10を掛けて50を足します。
20150222_210.JPG

で、加藤さんの国語の偏差値は"59.5"、数学は"68.2"と求められました。
20150222_211.JPG
数学の点数の方が低かったですが、偏差値は高かったことがわかります。しかもかなりの好成績!
実際に計算してみた方が分かりやすいですよね。(*^^)v

と、こうして、表されるのが「偏差値」です。実に合理的な数字ですよね。
でも、これって現状の試験、評価方法の問題を解決するために便宜的にあみだされた様な数字に見えてしまうのですが。。。

標準偏差と言うと、「学年ビリのギャルが1年で偏差値を40あげて慶應大学に現役合格した話」という本が書店に並んでいる。
偏差値30の女子高生が偏差値70の慶応大学に入学するという実話を描いた本。
偏差値30から70というと、ビリから2.3%の成績からトップ2.3%に躍り出るという信じられないような話。「この奇跡はあなたにも起こる」というスゴイことだ。
ちなみに表紙の女子高生の制服は今、夏季限定の夏服バージョンが並んでいました(なんでやねん!?)。あっ、この子はモデルで実在の女子高生ではありませんからね。。。


偏差値またはz値によって、各データが異なる集団の中での位置付けを相対的に比較出来ることが分かりましたが、集団そのもののばらつきの大小を異なる集団(データ)で比較するするには。。。?
次回は"変動係数"についてまとめてみました。
20150301_11.jpg



バックナンバー
データの標準化とは?
分散と標準偏差(ばらつき)についてまとめてみた

関連ページ
正規分布について
統計分析の基本中の基本、度数分布表についてまとめてみた
NORMDIST関数で正規分布の確率密度・累積分布を求めてみた
posted by haku1569 at 23:03| データ分析の解説 | このブログの読者になる | 更新情報をチェックする