2014年11月01日

相関関係で気をつけたいこと(散布図を画いて確認しよう!) /データ分析の解説

さて、前回は相関係数を求めることで、相関の強さ、正の相関、負の相関かどうかが分かるようになったのだけど、じゃ、相関係数を求めればいいかというと、そうではなくて、
相関グラフ(散布図)もちゃんと画いて確認しないと間違いを見落としてしまうケースがあったりします。
今回はそんなことも含めて、相関分析で気をつけておきたいことをまとめてみました。

外れ値
“外れ値”というのは、データの入力ミスだったり、異なるデータが混在したりして、極端に大きい(小さい)データのことで、この外れ値があると“平均値”が大きく変わってしまうことがよく知られています。
相関分析でも、外れ値があると相関係数が小さくなってしまいます。
これを見分けるには相関グラフ(散布図)を画いてみないと見過ごしてしまいます。
20141026_02.jpg

直線以外の規則性
前回も説明したように、相関係数は分布が直線に近似できる場合の相関を表す数値です。
なので、上の図のように曲線の規則性あっても、相関係数では相関が無いような結果になってしまうことがあります。
ので、これも相関グラフ(散布図)を画いてみることが必要です。。

データの混在(層別にする)
20141026_11.jpg
せっかく相関グラフ(散布図)を画いてみても、そのデータに本来別なデータとして扱わなければならないものなのにそれに気づかずに一緒に混ぜてしまい、相関が無くなってしまったり、上の図の例の様に、正負が逆の結果になってしまうこともあります。
対象とするデータに異なる条件が隠れていないか、よく吟味しなければなりません。
これは、そのデータに関する専門的な知識が必要になる場合もあって、ちと大変です。。。

選抜効果
広い範囲に分布する全体のデータは明らかに相関があるんだけど、その中の1部分を取り出すと、相関が小さくなってしまうことを“選抜効果”と呼ばれます。
20141026_23.jpg

この選抜効果でよく例えに挙げられるのが、入試を行って合格者の、入試の時の得点と、入学後の成績の相関をみると相関が無いという結果になるという話。。。
この場合、“入試で合格した”で範囲を狭く選抜してしまったことが相関を無くしてしまう原因になるわけです。。。

なのだけど、選抜された範囲で相関が弱くなるのは、決して分析が間違っているわけではなくそれはそれで真実な訳です。
つまり、実際に必要とする分析の範囲がどこかによって、相関は変わります。
もし、全体から選抜した範囲の相関を求めたい時は、全体の相関も求めたうえで、選抜した範囲の相関を評価するべきだと思います。。

っと、いう訳で、相関係数だけでは分からないところ、見過ごしてしまうところがあります。
散布図を画けばおぎなえるところ、散布図を画いても分からないこともあります。
データの背景をよく見て(データを収集して、分析して)正しい(妥当な)相関を見つけましょう!!

さて次は、その散布図について簡単にまとめてみました。
予告編
20141107_01.jpg

バックナンバー
其の1 相関関係についてまとめてみた

関連ページ
其の3 散布図についてまとめてみた(どっちが横軸?)
其の4.1 散布図を画いてみた / グラフ
COVAR関数で共分散を求めてみた
CORREL関数で相関係数を求めてみた
データ分析の解説/メニュー
posted by haku1569 at 19:56| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年10月12日

相関関係についてまとめてみた /データ分析の解説

何か2つのデータの間に関係がありそうだ!
っていうのを相関関係があるといいます。
ドラマやなんかの登場人物の関係も“相関図”と言ったりしますが、それはちと意味が違います。
相関関係を調べるデータは基本的に最終的には連続した数値データにするのが分析には適していると思います。
20141012_01.jpg

分かりやすい例をあげると、、
季節(月)と電気料金の関係だったら、気温と電気料金とか
子供の算数の成績(テストの点数)と理科の成績とか、
スーパーでの気温と、ビールの販売数とか。。。
など、大体想像がつきそうなデータの関係だけではなくて、2つのデータがどんな関係があるか、どのデータを対象にした方が関係性が強いかを分析することも重要です。
例えば、気温とビールの販売数の関係は、気温より湿度のデータの方がより関係があったりとか?(ないか。。?)
算数と、理科の成績の相関?
理系と文系の教科の場合、理系の方が塾に通っている子供が多いとしたら。。。
塾に通ってる子と算数または理科の成績の相関ってことになるかも!?
つまり、そこがデータ分析の肝になるところ。。色んな角度でデータを集めて分析することが必要なことになる。。

相関関係を見る相関グラフ(散布図)
2つのデータの相関関係を調べるには、まず相関グラフを画いてしまうのが手っ取り早く全体の傾向をつかむのに有効です。
具体的には、2つのデータを横軸と縦軸にとった“散布図”を画きます。
数学的にいうと“x-yグラフ”になります。ちなみに横軸が“x”、縦軸が“y”になります。
Excelを使うと散布図を簡単に画くことが出来ます。
散布図については後ほどまとめておきます。。

相関係数
話が逸れてしまったけど、
相関グラフを画いてみて分かることはばらつきの大小と、グラフの傾向、右肩上がりか右肩下がりか、それと直線ではなく曲線的な傾向があるかないか等など。。
んで、相関グラフでの特性を表す値(特性値)に“相関係数”というのがあります。
ばらつきが無く一直線上にある場合は“1”、ばらつきが大きく右肩上がりか右肩下がりかグラフの傾向も分からないような場合は“0”になります。
また、右肩上がりはプラス(正の値)、右肩下がりはマイナス(負の値)になります。
20141012_02.jpg

相関係数は2つのデータが直線的な傾向を判断する特性値なので、相関係数が“0”でもばらつきが大きい場合とは限らず、曲線的な規則性に当てはまっている場合もあります。

共分散と相関係数
さて、相関係数はどうやって計算するかというと。。。
まず“共分散”というのを求めます。
共分散は標準偏差を求める時の分散と同じような考え方で、“x”と“y”の平均との差をかけてその平均を求めます。
分散はその“x”だけ(または“y”だけ)の特殊なケースと言えるかもしれません。
20131013_01.jpg

共分散を求めることで相関係数がプラス(右肩上がり)かマイナス(右肩下がり)かが分かります。
“x”と“y”の平均値の点から右上、左上、右下、左下の4つの範囲に分けると、
xの平均との差とyの平均との差の積(掛け算)がプラスになる範囲は、右上と左下の範囲になり、この範囲を通るグラフは右肩上がりになります。
逆に、xの平均との差とyの平均との差の積(掛け算)がマイナスになるのは左上と右下の範囲になり、個の範囲を通るグラフは右肩下がりになります。
20131013_02.jpg

共分散の値の単位はxの単位とyの単位の積になります。
例えば、気温とビールの販売数の共分散だったら、単位は“℃・本”になります。
またその値も、ビールを販売する店によって販売量が異なると共分散の値も変わってくるでしょう。
そこで、相関係数を使って、いろいろな相関関係の特性を共通の値で表すわけです。。
ちなみに、共分散はExcelの“CONVAR関数”で簡単に求めることができます。
20131013_03.jpg

相関係数の単位は共分散をxの単位を持つxの標準偏差と、yの単位を持つyの標準偏差で割るため単位が無くなります(無次元)。
また、相関係数の値は“-1〜1”の範囲の値になります。

相関係数と、相関関係の相関の強さの目安は、
相関係数>0.7:相関が強い
0.4<相関係数<0.7:相関が中間的(な強さ)
0.2<相関係数<0.4:相関が弱い
相関係数<0.2:相関が見られない

とされています。
(目安なので“以上”、“以下”かどうか細かいことは気にしないでくださいね!)
また、相関係数はExcelの“CORREL関数”で簡単に求めることができます。

と、相関係数さえ求めれば、相関関係が分かってしまうように思いますが実際は、そう単純な話ではありません。
次は、相関関係を調べる時の注意しなければならないことについてまとめてみました。

予告編
20141026_23.jpg



関連ページ
其の2 相関関係で気をつけたいこと(散布図を画いて確認しよう!)
其の3 散布図についてまとめてみた(どっちが横軸?)
其の4.1 散布図を画いてみた / グラフ
COVAR関数で共分散を求めてみた
CORREL関数で相関係数を求めてみた
データ分析の解説/メニュー
posted by haku1569 at 22:51| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年09月23日

分散と標準偏差(ばらつき)についてまとめてみた/データ分析の解説

“ばらつき”と云うのは集団の中のデータ同士の差異(違い)のことで、統計的にはそれを“定量化”つまりはっきりと数字化(値に)したものです。それが“分散”や“標準偏差”になります。
前回は“平均との差”の平均“分散”についてまとめましたが、今回は“標準偏差”について詳しくみてみましょう。
例えば、テストを行った各学生の点数がこんな点数で、平均は63点でした。
20140923_0.jpg

さてここで、加藤さんは73点で平均より10点高かった訳ですが「10点も高かった」と言えるのか、それとも「10点しか高くなかった」としか言えないのか。。。?
テストの結果をヒストグラムにしたとすると、、
20150222_01.jpg
ばらつきが大きかったとすると左のようになだらかな分布になり、ばらつきが小さいと右のような尖がった分布になります。
 平均値より10点高かった加藤さんですが全体の分布がどうなっているか(ばらつきが大きいのか小さいのか)によって、全体の中での位置付けが変わってくるわけです。
 そのばらつきの大きさを数値で表したのが"標準偏差"(Standard Deviation)です。

分散と標準偏差の求め方
標準偏差を求めるためにまず"分散"(variance)を求めます。
分散は平均との差(点数-平均)の二乗の平均値です。
で、標準偏差はその分散の平方根になるわけです。
20140923_1.jpg
平均との差(点数-平均)を単に平均してしまうと、プラス・マイナスで相殺されてしまいます。
例えば田中君の53点と加藤さんの73点の平均との差をそのまま足してしまうと-10+10=0になってばらつきが無くなってしまいます。そこで一旦二乗を平均したのが分散になります。

平均値が同じでも標準偏差が異なるとデータのばらつきが違いますから、データの分布の様子が変わってくるわけです。
よく聞く“正規分布”と言うのは“平均値”と“標準偏差”だけで、分布の形が決まります。
ですが、標準偏差はばらつきの大きさを表しているだけなので、正規分布にはなっていない分布でも用いることができます。

平均との差の平均は、平均との差の絶対値から平均を求める方法もあり、これを“平均偏差”といます。二乗の平均から平方根にした標準偏差とは値が異なります。

一般的に標準偏差は“σ(シグマ)”で表示されますが、これは母集団の標準偏差の場合で、サンプルデータ(標本)から母集団の標準偏差を推定する場合は“s”で表示され、データの個数は"n"ではなく"n-1"になります。
明確に区別する場合は標本(サンプル)の場合は"標本分散(または不偏分散)"、"標本標準分布"が使われます。

Excelの関数では“標本から予測した(母集団の)標準偏差”を求める“STDEV関数”“母集団の標準偏差”を求める“STDEVP関数”が用意されています。

さて標準偏差が分かったところで、次回は色々な種類のデータを比較できる様にするためのデータの標準化についてまとめてみました。
20160828_00.jpg


バックナンバー
データの変動と分散についてまとめてみた

関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
平均偏差、ばらつきの平均
データ分析の解説/メニュー
posted by haku1569 at 19:21| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年09月21日

平均値と代表値(特性値)/データ分析の解説

新聞やTVでいろいろな統計データが公表される時だいたい平均値が使われている。
平均値と聞くとイメージするのは、平均値付近が一番多くのデータが分布していて、平均値を挟んで平均値より小さいデータと平均値より大きい分布がだいたい同じ量くらいにあるって勝手に思います。つまり、難しいことは分からなくても正規分布の様な分布になっているもんだと勝手にイメージしちゃいます。正規分布だと、平均値と、中央値と最頻値が同じ値になります。

この分布は国税庁が公表した2012年の1年間働いた人の給与のデータです。
20140920_01.JPG

平均値は408万円です。
グラフを見ると一番人数が多い最頻値は400万円以下です。
あなたの収入と見比べてどうですか?多い?少ない?
実はこれは男女混合のデータです。
ちなみに、男性の平均値は502万円、女性は268万円です。女性の所得は男性の半分強しかありません。ですが、このデータは正規雇用、非正規雇用混合なので、パートさんのデータも含まれます、つまり、旦那さんの配偶者控除を受けるために年収を103万円以下に制限している女性のデータが多く含まれています。。。
勤続年数や年齢でも大きく違うでしょう。業種によってもかなりちがっています。
もちろん、国税庁のデータはそれらの区分ごとのデータも公表されています。
そんなこんなをひっくるめた給与所得者4,556万人の平均値が408万円ということな訳です。

このようにある集団の特徴を表す値を代表値または特性値といいこの場合は平均値が代表値とされています。

平均値は極端に大きい値や極端に小さい値等の外れ値があるとその影響で平均値が変わってしまいます。
それに対し、一番分布が高い最頻値や、全てのデータを小さい方から順に並べてちょうど真ん中の順番にくる中央値は外れ値の影響を受けません。

統計データの特徴を分かりやすくするために代表値は平均値、最頻値、中央値などから適したものを使う必要があります。
また、年毎に比較する様な場合では、当然ですが同じ代表値比較しなければなりません。。

Excelの関数では平均値のことを“Average”と言いますが、数学では平均値は“Mean”と訳されます。どちらも“平均”の意味ですが、“代表値”のことを“Average”と訳す場合もあるようです。

ではまずは、この「平均値」についていろいろ勉強していきましょう!
最初はいわゆる「平均値」と言われる「算術平均(相加平均)」と「加重平均」についてまとめてみました。
20160419_08.jpg


関連ページ
中央値(median / メジアン)についてまとめてみた
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー
posted by haku1569 at 16:24| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

中央値についてまとめてみた(平均値と何がちがう?)/データ分析の解説

中央値ってのは
データを小さい順から並べた時にちょうど真ん中にくる値のことです。
20140920_00中央値.jpg

いわゆる平均値では極端に大きいデータや極端に小さいデータ(外れ値)が1個でもあるとその値によって平均値が大きく変わってしまいます。
データが正規分布に近い場合はデータの集団の特徴を平均値で代表させる(代表値)ことができますが、正規分布から外れてしまっている場合は平均値では集団の特徴を代表させるには適当ではありません。
なのに、“平均値”は老若男女を問わず広く知れ渡っているため、かなりの割合で正規分布から大きく外れてしまっていてもその集団の代表値に“平均値”が使われています。
中央値は、そのような場合に平均値に代わって集団の代表値として使用することができます。

中央値の求め方
データの数が奇数の時は、真中にくるデータがありますが、偶数の時は真中のデータはありません。
その時は、まんなかの2つのデータの平均値を中央値とします。
例えば、10人の子供が並んだ時は5番目と6番目の子供の身長の平均値が中央値になります。
式で書くとこうなります。
ちなみに記号は“χ”の上に“~”(チルダ記号)をつけて“エックスチルダ”と呼びます。
20140920_01中央値の式.jpg

よく、スポーツの採点で体操、フィギュアスケートやシンクロ等の採点では採点の最大値と最小値を除いてから平均する“トリム平均(調整平均)”が採用されています。これは平均値が外れ値の影響を受けやすいためにそのようにしているのですが、このトリム平均の取り除く幅をどんどん増やしていって残った最後のデータが1つ(または2つ)になった時の値が中央値ということになります。

中央値と平均値を比べてみると
外れ値がある時は間違いなく中央値を用いるのが妥当です。
20150210_04.JPG

では、分布が左右対称ではなく偏っている場合は?
20150210_03.JPG
この場合、平均値は明らかに右寄りの値になります。
よく、給与所得者の平均賃金が非常に高く感じられるのは間違いなくこの為です。
中央値だとそれが緩和されて、実情に近い値になるでしょう。しかし山のピーク(最頻値)よりは右側になります。この場合は最頻値が最も多くの人が実感できる値になります。

例えば、テストがあって5人の生徒の点数(@〜D)が、
@10点、A10点、B30点、C70点、D80点だったとします。
前回の算術平均と加重平均の話に出てきた天秤の釣り合いを考えてみると、
平均値は(10+10+30+70+80)÷5=40点で重心になり天秤は釣り合います。
中央値はB番目の値、30点になり天秤は釣り合いません。
またこの3番目の順番さえ変わらなければ、他の@、A、C、Dの点数がいくつであろうが中央値は変わりません。
20160410_11.jpg

というわけで、データの代表値として"平均値"を使うか"中央値"か"最頻値"何が妥当かを判断するには度数分布図(ヒストグラム)をまず作るようにしましょう!

Excelでは、中央値を求める“MEDIAN関数”が用意されているため、データの数が奇数か偶数かとかを気にすることはありませんよ。。

次回は中央値に対応するばらつきの代表値"四分位範囲"、"四分位偏差"について説明しましょう!
20150307_02.jpg


バックナンバー
1.平均値と代表値(特性値)
2.算術平均(相加平均)と加重平均の違いは?「重み」ってナニ!?

関連ページ
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー
posted by haku1569 at 00:30| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年08月31日

主婦も納得?ABC分析(パレート分析)/データ分析の解説

ABC分析って?
例えば、家計簿を例にとるとみんな分かりやすいと思うので、、、
家計簿は、買物、公共料金の支払い等の支出(金額)とそのアイテム(項目)を日付ごとに記録していきます。
更に、買った品名等のアイテムを“食料品”、“衣料品”とか“光熱費”とかの分類をしているかもしれません。
20140906_00家計簿.jpg

ところで、家計簿をつける目的を考えると、、
その一つに支出を減らすというのがあると思います。減らすための作戦を立てるデータになるわけですよね。
普段より支出が多かったら、その原因を確認して次の月からから「お財布のひもを締めていかなきゃ!」と対策をとることもあるでしょう。

ABC分析というのは、パレート図っていうのを作って、支出の大きい順に項目を並べ替えてどの項目を重点的に節約すれば支出の減らすのに効果的かを見極める分析の手法のことです。パレート図を使うのでパレート分析とも言われます。
パレート図も度数分布を表したものですが、一般的にアイテム(項目・カテゴリーとも、、)毎の度数分布の場合はパレート図が使われ、数値(ある範囲の数値)毎の度数分布の場合はヒストグラムが使われます。
支出の合計の70〜80%を占める項目を“ランクA”80〜90%を占める項目を“ランクB”、残り(90〜100%)の項目を“ランクC”と重点度合いでランク分けすることから“ABC分析”と言われます。
20140906_00パレート図.jpg

ちなみに“パレート”というのは、イタリアの経済学者の名前“Vilfredo pareto(ヴィルフレート パレート)”から来ています。
20140906_00パレート.jpg

家計簿の場合は、支出を減らすための分析になりますが、お店や、企業の場合は売上を増やすために、“売上金額と販売商品”、“売上金額と顧客”なんかがABC分析の対象になります。
他に減らす方は、工場の“不良件数と不良の原因”とか“在庫金額と在庫品目”とか、、、いろいろありそうですね。

ニッパチの法則
ABC分析では“パレートの法則”というのがあって、家計簿の例えでいうと、全部の支出の項目の内、大きい順に並べた最初の20%の項目の数だけで支出の合計の80%を占めるというもので、“80-20の法則”や“ニッパチの法則”ともいわれます。
具体的に言うと、仮に100項目の支出(米、野菜、肉、衣料品、医薬品、家賃・・・とか)があって、支出の合計が100万円(多すぎでしょ!?それとも、大金持ち?)だった時、大きい順の20項目の支出(家賃、教育費とか?)だけで、支出金額合計100万円の80%、つまり80万円を占めると言う法則ですが、必ずしも、20%の項目が値の80%を占めるということではなくて、全体の値の殆どは、僅かな項目で占められるという法則(経験則)を表しています。

ABC分析の目的は?
ABC分析は文字通り分析の方法なので、ある課題を解決するためのツール(手段)でしかありません。
例えば、家計の支出を減らす、商品の売り上げを伸ばす、工場の不良率を下げる、在庫を削減する。。。が最終目標になります。
では、何のためにABC分析をするかというと、、
@課題解決のための重要なアイテム(項目)が何かを明確にすること(見える化)
Aその影響度合い(依存度合い)を把握すること
Bそして、注力するところ、または力を抜くところ(もっと言うと、やめてしまうところ)を見極める。
C注力する方法、力を抜く方法を考える。
D対策を実施した後の効果を確認する
・・・

なんかが、ABC分析をする目的になると思う。。

パレート図の形
パレート図を作った時、必ずしも“パレートの法則”が成り立つような“80-20”のグラフになるとは限りません。
累積構成比の線グラフがもっと急に立ち上がるグラフ(急な形)だったり、なだらかなグラフ(なだらかな形)になることもあるでしょう。。
20140906_00パレート図の形.jpg
商品の売り上げで考えると、“急な形”はごく少ない商品で売上の殆どを占めてしまっています。
その商品の売上のバラつきが全体の売上のバラつきに影響を与えてしまい依存度が大きくなってしまっています。その商品が製造中止になったり、納期が遅れたりすると致命的な影響を与えてしまいます。
もっと、売れ筋商品の柱を増やす必要があります。できれば、違うジャンルの商品で柱をつくるのが効果的に、リスクを減らせます。
また、このような場合、少ない売れ筋商品の売り上げを維持するために、注力は可能かもしれませんが、必要以上に力を注がないと維持できなくなっているのかもしれません。。

それとは反対に“ゆるやかな形”は売れ筋商品が何かがつかめません。
リスクは小さいと言えますが、売上を伸ばすために何処に力を注いだらいいかが曖昧になっています。
“商品と売上”の分析だけではなく、“顧客と売上”など視点を変えた分析も行って、課題を見つけ出す必要がありそうです。。

ロングテールの法則
“パレートの法則(80-20の法則)”と反して最近は“ロングテールの法則”と言うのがあります。
これは、インターネットによる本の通販サイト“Amazon”の成功事例をモデルにしたパレート図の形です。
20140906_00ロングテール.jpg
年に1〜2冊しか売れない様な、実際に店舗をもつ書店では在庫が出来ない本をどんどん品揃えに増やしていくと、それらの売上に占める割合が半分以上になるという成功事例です。
実際に在庫を持たないネット通販だから可能になった手法です。Amazonに対抗しようと店舗を持つ書店が年に数冊しか売れない本を沢山品揃えすることは不可能です。
つまり、Amazonは既存の書店に対し明確な差別化をしたということです。
“パレートの法則”は例えばコンビニの商品在庫のシステム(POSシステム)に見られるように、小さな店舗で棚に置ける商品(アイテム)の数が限られている時に、常に売れ筋商品をリアルタイムで分析して、在庫補充をしていくというシステムにその活用を見ることができますが、品揃えするアイテムの数とそれにかかわるコストがどうかによって考え方がガラっと変わってしまうのでしょう。。
そう言えば、TVで地方の大型のホームセンターで、年に1回ぐらいしか売れない様な物でも常に在庫して「あの店に行けば何でもある!」というPRで集客しているというの見たことがあったなー。。

それでは、次は実際にパレート図をExcelで作ってみましょう。

関連ページ

第2弾!“Excelのグラフでパレート図を画いてみた
第3弾!“ピボットテーブル+ピボットグラフでパレート図を画いてみた
データ分析の解説
posted by haku1569 at 19:40| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年07月26日

お母さんの必見!わが子の偏差値とz値とは/データ分析の解説

偏差値というと試験の成績の評価のひとつとして定着してるけど、ほんとはどんな意味なのか、まとめてみました。

偏差値(standard score)とは、例えばテストの成績(点数)が集団の中でどのくらいの位置(順位ではありません)にあるかを示す無次元の値です。無次元ですから、点数ではありません。
“score”というのは「点数」とか「成績」という意味で日本語の“偏差値”(偏り・差)みたいな意味は英語には一切ありません。。。

ではさっそく、偏差値の具体例をみてみましょう。
国語と数学のテストを行った加藤さんの得点と偏差値です。
20160904_01.jpg
得点は、国語の方が良い点数でした。
ですが、国語と数学では全体の平均点や標準偏差が異なるため学年の中での位置付けはことなります。
それを偏差値を求めると国語と数学を同じ土俵にして位置付けを見ることができます。
その結果、国語よりも数学の方が偏差値は高かったことがわかりました。
つまり加藤さんは国語より数学の方が成績?実力?学力?が高いと言えます。

さて、詳しくみていきましょう。
"分散と標準偏差"で自分のテストの結果が分かっても全体の平均値や標準偏差が分からないと集団の中でどのくらいの位置にいるか分からないと言うことが分かりました。ところが、課目が違うテストや行った日にちが違う別のテストと比較したい場合、課目や試験によって平均値も標準偏差も違うため比較できなくなってしまいます。
そこで、まず前回説明したデータの標準化を行います。これで同じ状態で比較できるようになります。
ここで、大切な大前提は、テストの結果の分布は正規分布になるということです。(正規分布についてはこちらをご覧ください

正規分布のデータを標準化したものを"標準正規分布"と言うわけですが、平均値が"0"、標準偏差が"1"と言うのはテストの結果を評価するにはちと分かり辛いですよね。
と言うことで平均を50、標準偏差を10にした正規分布にした訳です。このデータを偏差値、Z(大文字)得点(Zスコア)と言います。
20150301_01.jpg

z値(標準化データ)(この"z"は小文字です)とは、平均値とのばらつき(偏差)が標準偏差(σ:シグマ)の何倍かという値です。正規分布の場合よく「2σの範囲には95%含まれる」と言われている、あれです。これだけで、十分全体の中の位置が分かるわけですが、とりわけ試験の成績の場合やはり平均が"50"、満点が"100"という値の方が馴染みやすいので"偏差値"はz値を10倍して50を足してそうなるように補正しているだけです。つまり、z値が"2"の偏差値は"2x10+50=70"となります。この偏差値を"Z値"(大文字)と言ったりします。

まず平均を50に合わせます。平均値が違うテストで、得点だけで優劣は比較できないですよね。
平均値を合わせると言うのは、つまり平均の位置を横方向に移動(OFFSET)させるだけなので足し算、引き算で可能です。
20140726_02.jpg

次は、標準偏差を10にします。これもバラつきの分布が異なっていると、同じ平均値の同じ得点でも、集団の中での位置は異なってきます。
20140726_03.jpg

さて、この偏差値の値と集団(平均50、標準偏差10の正規分布)の中での位置づけがどうなるかというと、、、こうなる
20140726_04.jpg
ちなみに、偏差値が"100"っていうのはExcelの"NORMDIST関数"で計算してみると、400万人中1番の人になりますよ!!

ちなみに、東進の林先生のお弟子さんでかつ、「ミス日本コンテスト2015」の準ミス日本の東京大学医学部の秋山果穂さんは高校時代の東大模試で偏差値93.7だったとか!?

さて、ここでもう一度加藤さんに登場していただいて、国語の試験と数学の試験の結果の偏差値を実際に求めてみましょう。
加藤さんの試験の点数は国語が73点、数学が60点でした。国語の方が点数は良かったですが偏差値はどうなんでしょう?
20150222_201.JPG

まずそれぞれの平均値と標準偏差をExcelの関数で求めてみます。
平均値は"AVERAGE関数"で求めます。
20150222_202.JPG

標準偏差は"STDEVP関数"で求めます。
20150222_203.JPG

ちなみに、国語の試験のヒストグラムはこんな感じ
20150222_205.JPG
数学はこうでした
20150222_206.JPG

数学は平均点が低くまたばらつきは小さいことがわかります。
層別だとこうなります。
20150222_207.JPG

ではまず、z値を求めるために"偏差"(点数-平均)を求めます。
20150222_208.JPG

つぎはそれを"標準偏差"でわります。これで"z値"が求められました。
20150222_209.JPG

つぎは偏差値です。z値に10を掛けて50を足します。
20150222_210.JPG

で、加藤さんの国語の偏差値は"59.5"、数学は"68.2"と求められました。
20150222_211.JPG
数学の点数の方が低かったですが、偏差値は高かったことがわかります。しかもかなりの好成績!
実際に計算してみた方が分かりやすいですよね。(*^^)v

と、こうして、表されるのが「偏差値」です。実に合理的な数字ですよね。
でも、これって現状の試験、評価方法の問題を解決するために便宜的にあみだされた様な数字に見えてしまうのですが。。。

標準偏差と言うと、「学年ビリのギャルが1年で偏差値を40あげて慶應大学に現役合格した話」という本が書店に並んでいる。
偏差値30の女子高生が偏差値70の慶応大学に入学するという実話を描いた本。
偏差値30から70というと、ビリから2.3%の成績からトップ2.3%に躍り出るという信じられないような話。「この奇跡はあなたにも起こる」というスゴイことだ。
ちなみに表紙の女子高生の制服は今、夏季限定の夏服バージョンが並んでいました(なんでやねん!?)。あっ、この子はモデルで実在の女子高生ではありませんからね。。。


偏差値またはz値によって、各データが異なる集団の中での位置付けを相対的に比較出来ることが分かりましたが、集団そのもののばらつきの大小を異なる集団(データ)で比較するするには。。。?
次回は"変動係数"についてまとめてみました。
20150301_11.jpg



バックナンバー
データの標準化とは?
分散と標準偏差(ばらつき)についてまとめてみた

関連ページ
正規分布について
統計分析の基本中の基本、度数分布表についてまとめてみた
NORMDIST関数で正規分布の確率密度・累積分布を求めてみた
posted by haku1569 at 23:03| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年06月14日

データ分析の解説/メニュー

確率

































度数分布






正規分布








相関関係




posted by haku1569 at 22:10| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

正規分布についてまとめてみた / データ分析の解説

正規分布とは。。。
正規分布(Normal Distribution)、ガウス分布ともいいます。
その前に、統計分析の基本、"度数分布"や"ヒストグラム"についてのおさらいはコチラをどうぞ!

正規分布の形
正規分布というのは“分布”の形のことなので、度数分布のグラフつまり“ヒストグラム”の形が平均値を中心に釣り鐘状に分布していることを言います。
どんなデータの分布が正規分布になるかと言うと、例えば、人の身長の分布(と言っても、年齢や性別を限定する必要があります)とか、サイコロをたくさん振った時の出目の分布とか、製造現場では何か部品を加工した時の寸法のバラつきの分布とか。。。
ある自然現象、社会現象のデータの分布にも多くあると言われます。
具体的にはこんな形の分布になります。
20140614_01.jpg

但し、正式な意味では、グラフの縦軸はヒストグラムの場合の個数や件数ではなく、確率になります。しかも“確率密度”つまりグラフの全体の面積を“1”とした、単位幅当たりの“確率”。。。
例えばヒストグラムの縦軸の度数(個数、件数)を総件数で割ったもの(20%とか、50%とか)を相対度数と言いますがそれが“確率”に当たります(なのでグラフの面積が"1"になります)、それを更に横軸の幅で割ったものが単位幅当たりの確率で“確率密度”になります。(つまり確率を微分したものです、、よけい分からない!?)
“確率”と言うと、いきなり難しそうなので、“割合”だと考え方を変えてしまいましょう。。。
20140614_02.jpg

Excelの統計関数では、“NORMDIST関数”で正規分布の“確率密度”、“累積分布”を求めることができ、そこから正規分布のグラフを画くこともできます。また後から登場する尖度(せんど)を求める“KURT関数”、歪度(わいど)を求める“SKEW関数”、等もあります。

確率密度関数
んで、そろそろ本題ですがその正規分布の形というのを数式で描くとこうなります
20150101.jpg

ここで、平均値“μ(みゅー)”ってのが出てくるんですが、これは母集団つまり、サンプリングされる大元の全てのデータが存在する集団の平均値という統計学的な意味です。そこからサンプリングされるのが“標本”で、計測される平均値は標本の平均値なのでエックスバー(よく数学で出てくる平均値の記号)がつかわれます。つまり、サンプリングされた標本の平均値から大元の集団(母集団)の平均値を推定するために正規分布が使われるのです。
例えば、サンプリングされたテレビの視聴率から全世帯の視聴率を推定するとか。。。

んで、この式から分かるように、正規分布は平均値とばらつきを表す標準偏差でのみ決まります。決まるというのは、その形が決まります。
ちなみに、平均値が“0”、標準偏差が“1”の正規分布を“標準正規分布(z得点)”といいます。

平均値の大小でグラフが左右に移動し、標準偏差の大小で、中心部の高さ、裾の広がり具合が変わります。
もう一つ、xの範囲はマイナスもプラスも無限大(∞)ってことです。
正規分布の例として、テストの成績と書いてあったりしたりします。実際、テストの結果から評価される“偏差値”はテストの結果が正規分布である前提なのですが、この式からみると下は0点、上は満点(100点)で制限されるので、正確には正規分布とは言えないのですが、概ね(おおむね)正規分布とみなされるので問題ありません。
加工部品の寸法のバラつきなんかの場合は、ある許容値の範囲外はNG品としてはじかれてしまっていた場合は次工程に流された部品の寸法のバラつきは正規分布ではなくなるので、注意が必要です。。。
つまり、実際の分布の状況をグラフ等でよく確認する必要があるということですね。
20140614_04.jpg

ちなみに、入試の時によく出てくる“偏差値”というのはさっきの平均値“0”、標準偏差“1”の“標準正規分布”を10倍してから50を足して、平均値“50”、標準偏差“10”の正規分布(Z得点)にしたときの全体の中の位置づけのことになります。

んで、実際の計測されたデータがこの式にのっとった正規分布なのかどうかを判断するのは難しいことです。データがたーくさんあるならまだしも、限られたデータではなおさらです。。
そこで、登場するのが“尖度”と“歪度”。これらは、正規分布かどうかを判断する目安に用いられます(あくまで目安です)

また、あらかじめ正規分布になるとわかっている場合、もしそれが正規分布になっていなかったとすると何か異常事態が起こっている可能性があります。

正規分布の範囲と推定
さて、正規分布の場合に何が分かるか、何が推定できるかというと、
平均±標準偏差の範囲(俗に言う±σ)には 全体の約68.26%のデータが含まれる。
平均±2×標準偏差の範囲(±2σ)には、全体の約95.44%のデータが含まれる。
平均±3×標準偏差の範囲(±3σ)には、全体の99.73%のデータが含まれる。
という特徴があります。
ので、平均値と標準偏差が分かっていると、あるデータが全体の中でどのくらいの範囲に入っているのかが分かります。
例えば、テストの平均点が60点で標準偏差が10点だったとすると約68%の学生の点数は50点から70点の間になることがわかります。
この、範囲と推定はExceの“NORMDIST関数”の累積分布で簡単に求めることができます。
20140614_06.jpg
ちなみに、−σ、+σのポイントが確率密度関数の変曲点になります。あっ、変曲点っていうのは読んで字の如く、曲線の曲がる向きが変わるポイントのことです。

では、次回はサイコロ投げをExcelを使ってシミュレーションして正規分布になるかどうか実際にやってみましょう。
20140921_2.JPG





関連ページ
尖度と歪度
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
ヒストグラムを層別にしてみると!?
確率の期待値についてまとめてみた
確率についてまとめてみた
データの変動と分散についてまとめてみた
分散と標準偏差について
Excelの統計関数で正規分布の確率密度・累積分布を求める / NORMDIST
Excelの統計関数で尖度を求める / KURT
Excelの統計関数で歪度を求める / SKEW
偏差値について
posted by haku1569 at 21:53| データ分析の解説 | このブログの読者になる | 更新情報をチェックする