2015年02月11日

数値データの分布をみるヒストグラムについてまとめてみた/データ分析の解説

項目別の度数分布ではなく数値データの連続数値に対する度数分布のグラフをヒストグラムと言います。
度数分布表やそれをグラフ化したパレート図は横軸が項目でその項目での度数(データの大きさ)を縦軸に表します。つまり、棒グラフや折れ線グラフで表わすようなデータが対象になります。
それに対し、XYの散布図の様な数値データのばらつきの様子を度数分布で見る場合はどうするかと言うと、横軸をある区間で区切りその範囲に含まれるデータの個数をとって度数として縦軸に表します。
20140506-07.JPG
一般的にパレート図の場合は要因分析等の為に使用されるため、度数の多い順に項目が並べ替えられますが、ヒストグラムの場合は横軸が数値軸のためデータの並べ替えはされず、横軸に対する分布を見ることに利用されます。

正規分布データ等がよく知られたヒストグラムになります。

ヒストグラムの形(分布型)をみる
ヒストグラムには分布の形状で、単峰性(山が1つ)と多峰性(山が2つ以上)の大きく2つに分類され、さらに、左右対称かどうか、外れ値があるかどうかなどでの分類がされます。

1.単峰性で左右対称
20150210_01.JPG
データの集団が同じ種類の場合は、分布するばらつきはその集団の中の個々のばらつきと見なすことが出来、基本的に単峰性左右対称な分布をしまします。この分布が統計的な大原則になります。

2.多峰性
20150210_02.JPG
この様に山が2つ以上あるのを多峰性といいます。
この様な分布の多くは単峰性の分布が2つ重なった場合に見られます。
つまり、測定した集団に異なる別の集団が含まれているような場合になります。
山の高さは、度数の大きさにですから、山の高さが高い方が測定された主な集団になります。
ここから、何の要因で集団が分かれているのかを見つけていく必要があります。

3.非対称(左右対称でない)
20150210_03.JPG
山を中心に左右の裾の長さが異なる分布を非対称の分布と言います。図のように、右に裾が長い場合と、左に長い場合があります。
この場合も多峰性の変形と見ることができます。山の高さが大きく異なる多峰性の2つの山を近づけていくとこのような分布に近づきます。
従って、これも異なる集団が隠れていると考え、その要因を見つけます。

4.外れ値
20150210_04.JPG
集団から外れたデータがあるものを外れ値といいます。これは、データの入力ミスや誤って他のデータの混入などの場合もあります。
と、このようにヒストグラムをみてその形を分析してみましょう。何かがわかるかも!?

ちなみに、Excelではピボットテーブルを使うと簡単にヒストグラムを作る事ができます。

次回は、多峰性の要因を見つけるヒストグラムの層別にについて解説しましょう。
20150210_14.JPG

バックナンバー
統計分析の基本中の基本、度数分布表についてまとめてみた

関連ページ
posted by haku1569 at 17:49| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2015年01月25日

条件付き確率(ベイズの定理)についてまとめてみた /データ分析の解説

条件付き確率(conditional probability)と言うのは、、、
ある条件(事象B)のもとで、事象Aの起きる確率を"条件付き確率"と言って、P(A∣B)と書きます。
条件(情報)が付くことで確率が変化することを表しています。
その計算式は、、
20150125_01.jpg
これを"ベイズの定理"と言います。

簡単な例で説明してみます。(簡単すぎて分かり辛いかも!?)
コインを2回投げた時、
2回の内1回は"表"だった時、もう1回も"表"の確率は、、、
20150125_02.jpg
コインを2回投げた時の"表"、"裏"のパターンは全部で4通りだけど、2回の内1回は"表"になるのは3通り。さらにもう1回も"表"になる(2回とも"表")のは1通りなので、
求める確率は1/3になります。

これを、式に当てはめると、、
P(B):2回の内1回は表の確率・・・3/4
P(A∩B):2回とも表の確率・・・1/4
P(A∣B)=(1/4)/(3/4)=1/3

もし、"1回目"が"表"だった時に2回目も"表"になる確率は、、、1/2になります。
つまり、いずれも2回とも"表"になる確率を求めているのだけれど、条件が加わることによって確率が変わってきます。

この条件付き確率(ベイズの定理)は18世紀の牧師さん"トーマス・ベイズ(Thomas Bayes)"によって発見されたのですが、300年の時を経て現代の迷惑メールの振り分け(フィルター)の技術に応用されているとか。。。すごいですねー!



バックナンバー
其の1 確率についてまとめてみた
其の2 標本空間と事象についてまとめてみた
其の3 事象の組合せについてまとめてみた
其の4 期待値についてまとめてみた


関連ページ
データ分析の解説/メニュー
posted by haku1569 at 18:26| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2015年01月24日

期待値についてまとめてみた /データ分析の解説

期待値(Expection)とは、、、
ある試行を行って、その結果(数値)の平均値のことを言います。
"確率分布の平均"(Mean of probability distribution)ともいいます。
20150124_02.jpg

試行の結果の数値をX(χ12,・・・χn
それぞれの値の確率をP(p1,p2,・・・pn
とすると、
期待値 E=χ1p12p2+・・・χnpn
となります。

例えば、サイコロを1回振った時の出る目を数値として見たときに期待値は、、、
20150124_03.jpg
E=1x1/6+2x1/6+3x1/6+4x1/6+5x1/6+6x1/6
=3.5
となります。
ちなみに、上のXとPの表を"確率分布(表)"といいます。
サイコロを1回振った時の出る目は1〜6まで何が出るか分かりませんが、何回も繰り返していくとその平均は3.5になります。

Excelの関数で"1"〜"6"の乱数を発生させてサイコロ投げ100回をシミュレーションして平均値がいくつになるかやってみましょう。
Excelの"RANDBETWEEN関数"を使用します。
20150124_04.JPG
と、100回投げると平均値は"3.44"になりました。

この期待値を求めることで、こんなことが分かります。
サイコロを振って出た目の100倍の金額が当たるくじを企画したとき、1回サイコロを振るくじをいくらにすれば損をせずこのサイコロくじを実施できるでしょうか!?
サイコロの出る目の期待値は3.5なので、このくじの期待値は3.5x100で350円になります。
なので、1回のくじを350円にすればトントン。それより高くすれば儲かります。
くじを引く人はもしかして6を出せば600円当たるかも!と買ってくれるかもしれません。
1しか出なくて100円しか当たらなかった人が次は6を出そうとおもって何回もサイコロを振っても、結果当たりは350円に近付くだけです。。。残念!
20150124_01.jpg

と、一見予測不可能なようなことも期待値を計算すれば損得を予測することができるというわけです。
ちなみに、ジャンボ宝くじ(1枚300円)の期待値は150円位なそうなので、悪しからず!?

さて、次回は色々な条件(情報)によって確率が変わる?
現代の迷惑メールの振り分けにも応用されている条件付き確率についてまとめてみました。



バックナンバー
其の1 確率についてまとめてみた
其の2 標本空間と事象についてまとめてみた
其の3 事象の組合せについてまとめてみた


関連ページ
データ分析の解説/メニュー
posted by haku1569 at 18:17| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2015年01月12日

事象の組合せについてまとめてみた /データ分析の解説

さて、前回"事象"について説明しましたが、今回はその組合せについてまとめてみました。
集合で登場した記号が使われます。

組み合わせる事象の例はサイコロを1回投げた時、
事象A:3以下の目が出る事象={1,2,3}
事象B:偶数の目が出る事象={2,4,6}
とします。

和事象
20150112_02.jpg
事象AとBの少なくとも1つが起きる事象のことを言います。
"A∪B"(エー・カップ・ビー)と表示します。
A∪B={1,2,3,4,6}となります。

積事象
20150112_03.jpg
事象AとBが同時に起きる事象のことを言います。
"A∩B"(エー・キャップ・ビー)と表示します。
同時に起こるとはAとBの重複した根元事象の事をいいます。
A∩B={2}になります。

余事象
20150112_01.jpg
事象Aが起きない事象のことを言います。
"A"の右上に小さい"c"を表示させます。
"A"の余事象は4以上の目が出る事象={4,5,6}
"B"の余事象は奇数の目が出る事象={2,4,6}
になります。

差事象
20150112_05.jpg
事象Aが起きて事象Bが起きない事象のことを言います。
"A-B"と表示します。
Bの事象である{2}は含まれなくなります。
A-B={1,3}になります。

排反事象
20150112_04.jpg
事象AとCは重複部分がありません。このばあい、Aが起きる時Cは起きず。事象Aと事象Cは排反事象といいます。
"A∩C=∅(空事象)"と表示します。

さて、ちとチンプンカンプン?な話になったところで次回は気分を変えて?くじ引きの話、、、
じゃなくて期待値についてまとめてみました。

予告編
20150124_01.jpg


バックナンバー
其の1 確率についてまとめてみた
其の2 標本空間と事象についてまとめてみた



関連ページ
データ分析の解説/メニュー
posted by haku1569 at 18:47| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

標本空間と事象についてまとめてみた /データ分析の解説

さて、前回"確率"の定義を比較的分かりやすく?解説しましたが、確率に関して色々な応用の場面になると、数学的に取り扱って公式(公理)に基づいた解き方を駆使していくようになります。
今回はその準備として"標本空間"と"事象"という用語についてまとめてみました。
数学的な確率の定義になると"集合"と同じような考え方が登場し、集合で使われた記号なんかも登場してきます。。。

標本空間について
標本空間(Sample space)というのは、試行によって起きうるすべての結果(根元事象)を含む集合のことを言います。
と、いうと分かり辛いですよねー。。。
いきなり"集合"なんてのが出てくるし。。
20150112_06.jpg

例えば、コイン投げの場合、結果の{表}と{裏}を"標本点"(Sample point)と言います。つまり前回の"根元事象"のことです。
で、この標本点を含む集合(全体)を"標本空間"と言います。
サイコロ振りの場合は{1}、{2}、{3}、{4}、{5}、{6}の標本点(根元事象)を含む集合のことになります。
記号は"Ω"で表します。

事象について
前回も事象の説明はしてありますが、数学的にいうと、
事象(Event)というのは標本空間(Ω)の中で全ての起きうること。
標本空間の部分集合になります。
20150112_07.jpg

コイン投げの場合だと、標本点(根元事象)の{表}、{裏}の他に{表、裏}(表か裏がでる事象)、∅(空事象)も含まれます。
"∅"は空事象と言って、標本点をなにも含まない事象、つまり何も起こらない事象のことを言います。

さて次回は、事象の組合せについてまとめてみました。


バックナンバー
其の1 確率についてまとめてみた

関連ページ
データ分析の解説/メニュー
posted by haku1569 at 18:10| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2015年01月04日

確率についてまとめてみた /データ分析の解説

"確率"って何だろう?
ってことで、定義をまとめてみました。
20150104_03.jpg

確率とは、
@1つの試行を行った時に、
An個の場合の内の1つが必ず起こり(同時に2つは起きない)、
Bn個の起こる事が同様に確からしく期待でき、
Cある事象がEがn個のうちの特定のr個に限って起きる時、

事象Eの起こる確率は
P(E)=r/n と表す。

というのが確率の定義になります。
もう少し分かりやすく解説すると、、

@「試行」というのは、、、
同じ条件で何度も繰り返すことができて、その結果が偶然によって起きること。
サイコロ振りやコイン投げが試行になります。
20150104_02.jpg

A「n個の場合」というのは、、、
試行によって偶然に起こる事の全ての数のこと
サイコロ振りなら6個、コイン投げなら2個になります。
20150104_01.jpg
これらは必ず起き、同時に2つは起きません。
偶然起きることを"事象"と言いますが、1番元になる事象を"根元事象"といいます。

B「同様に確からしい」というのは、、、
分かりやすく言うとn個の根元事象が同じ確率で起きるということです。
"確率"の定義で"確率"という言葉はつかえないので、言い換えていると思えばOKです。
確率の式で分母がnになっているのは、n個の起きる確率が同じだからです。
もし違っていたら単純にnで割る事ができませんし、分子も単純にr個にするわけにはいかなくなります。
サイコロなら"1"〜"6"全て同じ確率、コインも"表"と"裏"が出るのは同じ確率であることです。
偶数が出やすいいかさまサイコロとか、表が出やすいコインの場合この式に当てはめられません。

C「ある事象E」というのは、、、
n個の根元事象の内のどれかかまたはその組合せ。
例えば、サイコロの目が「"1"か"5"が出る」とか、「偶数の目がでる」とか、
「特定のr個に限って起きる」というのは、、、
事象Eの起きる数が1つになるということです。
例えば、サイコロの目が「"1"か"5"が出る」2個だけの1つ、「偶数の目が出る」のは"2"、"4"、"6"の3個だけの1つということです。

と以上が、P(E)=r/n で表される確率の定義になります。
この定義のをラプラスの定義(先験的定義)と言います。

次回は確率を数学的に解いていくために基本的な用語"標本空間"と"事象"についてまとめてみました。

予告編
20150112_06.jpg


バックナンバー

関連ページ
データ分析の解説/メニュー
posted by haku1569 at 17:05| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2015年01月02日

信頼区間と標本誤差についてまとめてみた /データ分析の解説

前回のコイン投げ10回の確率で表が出る予想"5回"が出る確率は約25%と意外に小さいこと、そして、予想範囲に許容をある程度与えることで当たる確率が大きくなることがわかりました。。。

一般的に、統計調査等を行う場合、全体(母集団)を全て調べるのは、時間も費用もかかり合理的ではないので、全体から無作為(ランダム)に抜取った(抽出した)標本(サンプル)を調査することで、全体(母集団)を予測します。テレビの視聴率とか、世論調査とか。。。身近なところでは、工業製品の検査データ等。。。
ですが、やはり標本の調査結果とそこから推定する母集団の結果には誤差が存在します。この誤差を"標本誤差"(サンプリング誤差:sampling error)と言います。
 で、ここで問題になるのがそのような誤差がありながら、標本を調査することにより母集団の値にどれだけ近い推定値を得られるのか、標本から得られたデータの信頼性はどれだけあるのかということです。
そこで、"信頼区間"(Confidence interval)を設けることで、推定値の信頼性をあげます。
例えば、母集団の平均値が"10"の時、標本から得られた平均値が"9.5"だったとします。この時「母集団の平均値は9.5」と推定すると、外れてしまいますが、「母集団の平均値は9〜10」とすれば当たりになって、推定値の信頼性が上がりますよね。。但し忘れていけないのは、母集団の真の値は判っていないということ、つまり標本を調査しても標本誤差は判っていないのです。
20150102_12.jpg

一般的な統計調査では信頼度は95%が用いられますが、さらに信頼度を上げるには信頼区間を広げて標本誤差を大きくしなければなりません。"信頼性を上げる"と言うと"誤差は小さく"なるように勘違いしがちですが、逆です。
 機械工学の分野では"許容差"という言葉があって、設計上許容される誤差のことです。不必要に精度の高い部品を作るのは合理的ではないので、予め許容できる誤差を設定しておくことである程度部品がバラついて良し(信頼出来る)とする考え方です。
 この信頼性を上げるために信頼区間を広げることも「存在する誤差」を大きくすると考えるよりも「許容できる誤差を与える」ことで信頼性を上げると考えた方がすんなりすると思います。。。

信頼度95%の時の標本誤差は次の式で求められます。
20150102_11.jpg

分子はPが"0.5"の時に最大になります。
また分母はnのルートになるので、標本誤差を半分にしたい時は、標本数を4倍にすればいいことになります。

例えば、母集団10,000人のスマホの所持率を調査する場合、100人を抜取って調べた結果40%が所持していたとします。
この時の信頼度95%の標本誤差は、
P=0.4
n=100
を入れると"0.096" 約10%になります。
つまり10,000人のスマホの所持率は30%〜50%という調査結果になります。
標本誤差を半分にするためには400人の抜取って調べなければなりません。
すると、10,000人のスマホの所持率は45%〜55%という結果になります。

ということで、母集団の結果を推定しその標本誤差の妥当性によって標本の大きさを決める必要があります。。。

この"標本誤差"に関しては、国勢調査を実施している総務省や、視聴率を調査しているビデオリサーチのWEBサイト等で詳しく解説が行われています。実際の標本調査では、いかに偏らない"無作為"な標本を抽出するかとか、"非標本誤差"と言って記入ミスや集計ミスなどによる誤差も含まれてきますので、信頼性の高い母集団の推定値を求めることは数式で解決できるほど簡単ではないですね。。。


バックナンバー
其の1 正規分布についてまとめてみた
其の2 確率と正規分布の確率密度についてまとめてみた

関連ページ
ばらつきと誤差、精度や確度とか
データ分析の解説/メニュー
posted by haku1569 at 17:51| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

確率と正規分布の確率密度についてまとめてみた /データ分析の解説

さて、前回の正規分布の解説の最後に、コイン投げ10回をExcelの関数を使ってランダムに200回やってみて正規分布に近くなったことを確かめてみましたが、今回はコイン10回投げで表が5回出る確率を実際に求めてみて、正規分布の確率密度と比較してみましょう。
確率についてはコチラで解説しています。。

Excelで、ひたすら10回のコイン投げの表がでるパターンを作ってみます。
表は"1"、裏は"0"で表します。
ちなみに、10回のコイン投げの表が出るパターンは"1024通り"ありますよ!!
20150101_02.jpg
んで、表の右下には表が出た回数の平均値を標準偏差を"AVERAGE関数"、"STDEVP関数"で求めておきます。
1通り目が10回とも裏がでるパターン、1024通り目が10回とも表がでるパターンです。
20150101_04.JPG

もちろん、コインを投げたときの表と裏がでる確率は50:50なので、10回投げたときの表の出る回数は5回だろうと予測されます。想像通り平均値は"5"になっています。

では、表の出る回数の確率を求めていきましょう。
まず、表の出る回数"0回"〜"10回"の組合せの数を求めます。
それぞれの組合せの数を全ての組み合わせ(1024)で割れば確率が求められますよね。
組合せは、こんな式で求められます。
20150101_03.jpg

Excelでは"CONBIN関数"で組合せの数を求められます。
投げる回数"10"と、表の回数を指定します。
20150101_05.JPG

ちなみに、10回投げのパターンの表から"表の回数"を"5"で抽出すると、こんな感じになります。
10回から、5回を抜取る組合せの実際のパターンが分かります。
20150102_01.JPG

んで確率は、"COMBIN関数"で求めた組合せの数を、その合計"1024"で割っていきます。
20150101_06.JPG

すると、このように、組合せ数とその確率が求められました。
表5回は"252回"、確率は24.6%です。
20150101_07.JPG

では、次にこの1024通りのデータから、Excelの"NORMDIST関数"を使って正規分布の"確率密度"、"累積分布"を求めてみます。
正規分布は"平均値"と"標準偏差"が分かれば求められます。
さっきの、1024通りの表で求めてあった"平均値:5.0"と"標準偏差:1.58114"を引用します。
確率密度は最後の引数に"FALSE"を指定します。
20150101_08.JPG

累積分布の最後の引数は"TRUE"です。
20150101_09.JPG

つなみに、確率密度関数のグラフ、つまり正規分布のグラフはこうなりました。
20150101_010.JPG

で、確率と比較するとこうなりました。
20150101_011.JPG

さて、コイン10回投げで表が5回出る確率は"24.6%"ですが、正規分布のベルカーブ曲線の確率密度関数では"0.2523"になっています。
前回も説明しましたが、確率密度とは、単位幅当たりの確率のことで、確率とは異なります。
確率は曲線から下の面積(確率密度を積分したもの)になります。
また、正規分布の横軸の数字は連続した数値です。コイン投げでは表の回数は整数で、4.5回なんてのはあり得ませんが、正規分布はありです。コイン投げのような場合のとる値は"離散的"といい、連続数と区別されます。
正規分布では面積が確率になるので、総面積が"1"(確率の合計)になるのですが、累積分布関数の"10"の値は"0.999217299"で"1"にはなっていません。
これは、正規分布の横軸は"-∞から∞"であるためです。
累積分布関数で"4.5"と"5.5"の値を求めてその差(確率)を求めてみると"0.248"となり、10回投げで表が5回出る確率とほぼ同じになりました。
201510102_03.JPG

んで、前回"RANDBETWEEN関数"を使って10回のコイン投げを200セット行った時の表が5回出た確率"47/200=0.235"はほぼ妥当だと言うことがわかりますね。。

確率を求めてみたところで、もう一つ気になることがあります。
コイン投げの表と裏がでる確率は50:50で、10回投げたら表が5回でるのが予想値なのですが、その予想値が当たる確率は約25%しかないということです。75%は外れてしまうのです。。。
もし、"5±1回"と予想すると、4回〜6回が予想対象となるので、その確率"20.5%"+"24.6%"+"20.5%"="65.6%"が当たります。

次回は、サンプルを抽出して分析する際の"標本誤差"について説明します!

予告編
20150102_12.jpg

バックナンバー
其の1 正規分布についてまとめてみた

関連ページ
確率についてまとめてみた
COMBIN関数で組合せ(抜取り)の数を求めてみた
データ分析の解説/メニュー
posted by haku1569 at 14:51| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年12月23日

相関関係と因果関係、疑似相関と潜在変数についてまとめてみた /データ分析の解説

4文字熟語が4つも並んだタイトルだけど、決して4文字熟語のサイトではありません。
ここは、データ分析のサイトです。。。悪しからず、(-_-;)
20141229_01.jpg

さて、いろいろと相関関係についてまとめてきましたが、相関関係を求めるというのはどういうことでしょう?
とここにきて根本的なところを自問自答してみましょう。

相関関係とは、2つの量(数値)の間に何かの関係性があるかないかを求めること。では、関係性を求めてどうするの?何故関係性を求めるの?と言うことだ。
答えは、関係性を求めることで、“1つの値からもう1つの値を推定(予想)”したいからだよねー。

んでここで、注意したいというか、勘違いしがちなのが、相関関係があると、2つの値の一方がもう1つの値の原因になっていると思ってしまうこと。つまり因果関係があると勘違いしがちなのだ。。。

“因果関係”と言うのは“原因”と“結果”の連続した関係があること言います。
よく例えに挙げられる「アイスクリームの売上と水の事故の件数」がある。
20141229_02.jpg

アイスクリームの売り上げが増えると水の事故件数も増えるという相関関係があった時に、“アイスクリームの売り上げ”と“水の事故の件数”に因果関係があるかというと。。。まぁ、普通に考えると「無い」と言えるでしょう。
このような因果関係の無い相関関係を“疑似相関”と言ったりします。
別に、相関関係を求めた時に、必ずしも因果関係を求めることを前提にする必要はありません。
だって、色々な相関関係を求めないと、本当の因果関係は見えてこない時が多いから。。。
ただ、“1つの値からもう1つの値を推定(予想)”するためには、最終的には正しく因果関係を求めなくてはならないですよね。

んで、話を「アイスクリーム」に戻すと、この疑似相関には何が見落とされているか。。。
アイスクリームの売り上げが増える原因は?気温ですよね。
すると、水の事故が増えるのも気温?ということで納得の因果関係が求められるわけです。
この時の“気温”のことを“潜在変数”と言います。

この潜在変数を見逃してしまうと、疑似相関にも関わらすそれが因果関係だと勘違いしてしまっちゃうんです。

バックナンバー
其の1 相関関係についてまとめてみた
其の2 相関関係で気をつけたいこと(散布図を画いて確認しよう!)
其の3 散布図についてまとめてみた(どっちが横軸?)

関連ページ
データ分析の解説/メニュー
posted by haku1569 at 19:17| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2014年11月09日

散布図についてまとめてみた(どっちが横軸?) /データ分析の解説

さて、前回まで相関係数について解説してきましたが、今回は、相関係数だけでは見落としてしまう相関関係を見える化して本当の関係を見つけ出すのに必須の相関グラフをつくる散布図についてまとめてみました。
20141107_01.jpg
散布図というのは、横軸と縦軸に2つの別の量(数値)をとって、そのデータをグラフ上に点を打った(プロット)グラフです。
そのグラフ上に散らばった点の分布状態から、2つの値の相関関係を見ることが出来るます。

どっちを横軸にしたらいいか?
散布図を作る場合、2つのデータの内、どっちを横軸にしたらいいか、縦軸にしたらいいかという疑問がでてくると思います。
ここで、大切なことは「相関関係を調べる目的は何か?」ということです。
統計的なデータ分析をする目的の一つに、あるデータ変動から別のデータの変動を分析し推定(予測)したりするというのがあります。
例えば、気温とビールの売上の相関関係を調べる目的は?気温の変動からビールの売り上げを分析し、予測するためですよね。ビールの売上を調べて気温を予測することは無いでしょう。。
このような場合、品質管理等では“気温”のことを“代用特性”と言います。つまり、知りたいビールの売上を“気温”で代用させる訳です。
んで、話を戻すと、このこのような代用特性のデータを横軸にします。逆の視点でいうと分析(推定・予測)したい目的のデータを縦軸にとります。
では、算数と理科の成績の相関関係の場合はどうでしょう。なんとなく算数が横軸ですよね?つまり理科には数式が出てきたりするので算数の学力が理科のベースになっていると考えることができます。数学と物理と言った方がもっとはっきりするかもしれません。
算数の成績が最近伸びてきたから、次の理科の試験もきっといい点取れるかもね。。。とか、、
ということで、横軸、縦軸を使い分けましょう。。。

数学的にいうと
数学的には、散布図は“x-yグラフ”と呼ばれる場合もあります。棒グラフや、折れ線グラフなどでは、横軸は数値ではなくラベル(項目)ですが、それに対し、散布図は横軸、縦軸な2つの数値データになり、横軸は“x軸”、縦軸は“y軸”になります。
プロットされるデータはxの値とyの値を持っています。
20141101_08.JPG
出来上がった散布図から“x”と“y”の関係を y=ax+b 等と数式(関数)で表したりすることも出来ます。(近似式と言います)
上の数式のような1次関数の場合「xの値を決めるとそれに対応するyの値が1つだけ決まる」といいます。
Excelで散布図を作る場合、“x軸”、“y軸”という言葉がいきなり出てきますが、そういうことなんで、ビビる必要は全くありません!

さて次は、その散布図を描いて相関関係と因果関係について簡単にまとめてみました。

予告編
20141229_01.jpg


バックナンバー
其の1 相関関係についてまとめてみた
其の2 相関関係で気をつけたいこと(散布図を画いて確認しよう!)

関連ページ
其の4.1 散布図を画いてみた / グラフ
COVAR関数で共分散を求めてみた
CORREL関数で相関係数を求めてみた
データ分析の解説/メニュー
posted by haku1569 at 18:38| データ分析の解説 | このブログの読者になる | 更新情報をチェックする