2020年03月22日

共分散とは何ぞや / データ分析の解説

さて、気温とビールの売上本数の様な2つのデータの相関関係を数値で表す相関係数を求める時に “共分散” が登場します。
“分散” は知ってるけど “共分散” って何?ってことになります。
その“共分散”について考えてみようと思います。
散布図を描いてみたら気温が上がるとビールの売上本数が増えている時と言うのはどういう事かグラフをよく見てみましょう。
20200322-01.jpg

まず、ばらつきはあるもののデータが右上がりに分布しているようです。
と、言うことは。。
・気温が高い時は、ビールの販売本数も多くなる。
もうちょっと推測してみると、気温が平均値より高い時(暑い時)はビールの販売本数も平均値より多くなる。
・と言うことは、気温が平均値より低い時(涼しい時)はビールの販売本数も平均値より少なくなる。
また、縦軸のビールの販売本数を、1本毎じゃなくて、6本パックのパック数で数えると、縦軸の数は1/6に少なるなるけど、それは見かけの数字が少なるなるだけで、両社の関係は何も変わらない。
で、ここでこの散布図に気温とビールの販売数の平均値のラインを書き加えてその差を目盛りにしてみます。
20200322-02.jpg

平均値を境にグラフは4つのエリアに分かれました。
すると、なるほど先ほどの推測はほぼそうなっているのが分かります。
右上のエリアと左下のエリアは平均値に対しては真逆の状態なのですが、気温とビールの本数の関係に関しては右上がりと言う同じ状態を表しています
20190815_06.jpg

それではここいらで、共分散の定義はどうなっているか確認してみましょう。

共分散とは 2種類のデータ(2変量)の偏差の積の平均

変量
と言うのは、独立して異なる値を取り得る量のことでここでは、気温とビールの本数のことになります。
偏差と言うのはばらつきのことで(データの値-データの平均値)で計算されます。なので平均値より小さい値の場合は符号はマイナスになります。
偏差の積はつまり(気温1-平均気温)x(ビールの販売本数1-平均本数)のことになり
それらをデータ分合計してデータの個数で割った平均値が共分散ということになります。

20131013_01.jpg


共分散のキモはこの偏差を掛け算しているところです。
どういうことかと言うと平均値で分割された4つのエリアの偏差の積は[B]と[D]のエリアはプラス(正の値)になると言うことです。
[B]はそれぞれ平均値より上なのでプラスxプラスでプラスの値になり、
[D]もマイナスxマイナスでプラスの値になります。
方や、[A]、[C]のエリアはプラスとマイナスの掛け算になって結果はマイナスの値になります。
20131013_02.jpg
で、その偏差積の平均と言うことはまずそれらを足していきます。
偏差積は平均値で出来た軸を基準にした長方形の面積になります。ただ、[A]、[C]のエリアは負の値になりますので、面積に例えるのは間違ってますけどね。
20200322-03.jpg

でそれらの平均値ですから、結果正の値なら右上がり、つまり気温が上がるとビールの販売本数が増える(気温が下がるとビールの販売本数が減る)
負の値なら右下がり、気温が上がるとビールの販売本数が減る(気温が下がるとビールの販売本数が増える)と言うことになります。
今回の気温とビールの販売本数のサンプルを実際に計算してみると。。
共分散の値は“53”となりました。
この“53”の意味ですが、特にありません。単位は “℃・本” って何それっ!?って意味不明の値です。
なので、この “共分散” 単体で相関関係のどんな特性を表してるかと言うと。。正の値か負の値かだけが特性を表しているだけです。
20200322-04 (2).JPG
この値は共分散の値の大きさはビールの本数の単位が変わったり、大きなデータがあると大きく変わるので、共分散の値の大小と2つのデータの関係性は何も関連がありません。
また、“分散”という文字があるので右上がりの直線に対するばらつき具合を表しているのかな〜と思うのですが、例えば散布図のばらつき具合と共分散の値をみると、共分散の値が同じでもばらつきが大きかったり小さかったりするので関連がありません。

20200322-04.jpg

まとめると、“共分散” 単体は何を表しているかと言うと結局値が正の値なら右上がり、負の値なら右下がりだけです。






いつものキッチンのやかんでお湯を沸かすのではなく小形のストーブでお湯を沸かしてコーヒーを飲んだりカップ麺を食べたら普段と違う味がするはず!

ラベル:共分散
posted by haku1569 at 21:05| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2019年07月15日

平均誤差と標準誤差 / データ分析の解説

ばらつきだの標準偏差だのを調べていると、“平均誤差”とか“標準誤差”って言う言葉にぶち当たることがあります。何だろうと思ってみてみると、それって“平均偏差”や“標準偏差”と同じこと?
って、何だか言葉だけが混同して訳分からなくなってしまうのですが、これって誤差の話なんです。
つまり、データの分布の話ではなくてある目標値(真値だったり)との誤差の話です。つまりどちらかと言うと工学的な、実務的な話。
以前ばらつきと誤差についてまとめてみましたがつまりそう言うことなんです!(ってどういうことだっ!)“偏差”と言うのはデータの平均値に対する差のこと、“誤差”と言うのはデータの目標値(真値とか)に対する差のことになります。
なので、計算式は一緒です。紛らわしい言葉が出てきても戸惑う必要はありません

因みに、計算式通りの表現をすると“平均誤差”のことを“平均絶対誤差”MAE(Mean Absolute Error)、“標準誤差”のことを“二乗平均平方根誤差”RMSE (Root Mean Squared Error)と言います。

2019071501.jpg




関連ページ
posted by haku1569 at 22:56| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2019年03月10日

平均偏差、ばらつきの平均 / データ分析の解説

データのばらつきと言うと“分散”や“標準偏差”で説明されますが、ばらつきの平均と言うと、ばらつきと言うのはそれぞれのデータと平均値との差になるので、”差の大きさ”つまり平均値との差の絶対値を足し合わせてデータの個数で割ればばらつきの平均になり、それを“平均偏差”といいます。
20190310_01.jpg

たとえば、算数のテストを行ったら
田中君が53点、加藤さんが72点、正門さんが56点、秋山さんが67点でした。
平均は62点になります。

この時の平均偏差を求めてみると、
平均偏差=(|53-62|+|72-62|+|56-62|+|67-62|)/4
    =7.5
になります。

ちなみに分散は
分散=((53-62)^2+(72-62)^2+(56-62)^2+(67-62)^2)/4
=60.5

標準偏差=√(60.5)
=7.78
となります。

結局、数学的な展開の中で二乗計算の方が色々と都合がよいので、ばらつきの指標として平均偏差ではなく、分散、標準偏差が使用されていると言うことです。

Excelでは平均偏差は“AVEDEV関数”(Average Deviation)で求めることができます。
(Excelでは平均のことをMeanではなくAverageをつかっています)



関連ページ
データの変動と分散についてまとめてみた
分散と標準偏差(ばらつき)についてまとめてみた
データ分析の解説/メニュー
続きを読む
ラベル:平均偏差
posted by haku1569 at 17:23| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2019年03月03日

ばらつきと誤差、精度や確度とか / データ分析の解説

さて、データ分析について調べていくと“ばらつき”という言葉が頻繁に出てきますよね。
片や、“誤差”という言葉も登場します。
“ばらつき”と“誤差”って同じ意味?
また、”誤差”について調べていると“精度”や“確度”(正確度)という言葉もでてきたます。
今回はこれらの区別があいまいな言葉の意味をまとめてみたいと思います。
20190303_01.jpg

ばらつき
複数のデータの散らばり具合。
散らばっている範囲が大きいと“ばらつきが大きい”
散らばっている範囲が狭い(集中している)と“ばらつきが小さい”と言います。

誤差(Error)
真値、期待する値との差(ズレの大きさ)を言います。
 弓道をする時“期待する値”とは的の中心になります。数値で表すとx,y座標で(0,0)?
そこから、外れてしまった場合中心からの距離が誤差になります。
 また、金属を機械で加工している時に設計寸法が50.00mmの時、加工した物の寸法を測ったら50.15mmだった時、誤差は0.15mmとなります。

精度(Precision)
複数のデータのばらつきの小ささ。
ばらつきが小さい時、“精度が高い”といいます。
“再現性が高い”とも言われます

確度/正確度(Accuracy)
真値/期待する値との近さ。
誤差が小さい時“確度が高い”と言います。
20190303_02.jpg

誤差、精度、角度は主に工学系で使用されます。
品質管理の良否判定だったり、測定器等の校正・調整とか、、、
つまり、使う場面によって用語が異なったりするのですがその中身は表面上似ていると言うか同じだったりするので、混同してしまう場合があったり、実際ネットなどでは混同されて説明されているものもありますのでこんがらがらない様にしましょう!





関連ページ
データ分析の解説/メニュー続きを読む
posted by haku1569 at 16:57| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2018年11月18日

確率変数についてまとめてみた /データ分析の解説

確率変数
確率変数(random variable)と言うのは、ある値になる確率が決まっている全ての対象の値のことです。
サイコロで言うと1〜6のこと。
例えば、サイコロを振ってある目がでる確率はそれぞれ1/6と決まっていますよね、そのサイコロの目の全ての値の事です。
IMG_0029.jpg

コイン投げの場合は?
コイン投げは表か裏ですよね。変数ですから数値にしなければならないので、例えば、表が出たら“1”、裏が出たら“0”とすれば、それが確率変数になります。それぞれの確率は1/2と決まっています。

この確率変数は大文字のXで表します。
そして、確率によって決まった値のことを実数と言い小文字のxで表します。
つまり、サイコロを振って実際に出た目“6”は実数となります。

離散型と連続型
このサイコロやコインの1、2、3の様な離れている値の場合を離散型確率変数、長さや重さ、時間などの様な連続している値の場合は連続型確率変数と言います。
例えば100mmと200mmの間にはいくつの値があるかと言うと?
無数にあります。なのでピッタリ150mmになる確率は?というと0になってしまうんです。実際は100mmら200mmの間にはもちろんピッタリ150mmというのも存在するわけですけど、確率は0になります。連続型確率変数の場合はある1つの値を取ることはありません。
なので、確率を求めたい時は範囲を指定します。例えば、149.5mmから150.5mmになる確率とか。




次ページ:
前ページ:


関連ページ
データ分析の解説/メニュー






続きを読む
ラベル:確率変数
posted by haku1569 at 00:03| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2018年09月15日

回帰分析〜相関関係と区別しましょう〜の巻 / データ分析の解説

20180915_02.jpg

回帰分析というのは今までのデータを分析して将来(未知)の状況を予測すること。

例えば、気温とソフトクリームの販売数のデータから今まで経験したことのない猛暑日の気温の時のソフトクリームの販売数を予測することです。

そして「回帰」というのは、「気温」と「ソフトクリームの販売数量」の間に数式(y=f(x))を設定することです。
ここで、設定した数式によって予測する「ソフトクリームの販売数量」が“y”「従属変数(目的変数)
「ソフトクリームの販売数量」を予測するために計算に使用する「気温」を“x”「独立変数(説明変数)」と言います。
つまり、「ソフトクリームの販売数量」を予測したいために「気温」から予測できるのではないかと目を付けて過去のデータを分析して数式を当てはめたということです。
これが、「回帰分析」です。





続きを読む
ラベル:回帰分析
posted by haku1569 at 19:01| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2017年04月02日

独立変数(説明変数)と従属変数(目的変数) / データ分析の解説

統計の話と言うわけでもないのですが、用語の説明的な、、、

あるxとyの関係の中でxを独立変数、yを従属変数といいます。
そして確率や統計では独立変数のことを説明変数、従属変数のことを目的変数と言います。
20170402_00.jpg

定数(constant):一定の数値を示す文字(b)
変数(variable):いくつもの数値をとる文字(x , y)

2つの変数 x , y にある関係があって x の値が定まると y もある値に定まる時
x :独立変数(independent variable) 単に変数とも言います
y :従属変数(dependent variable) x の函数(関数)(function)とも言います

確率・統計では
独立変数 x を説明変数(explanatory variable)と言います。
函数 y を説明する変数、y の原因になる変数と言う意味になります。

対して、
従属変数 y は目的変数(terget variable)と言い
説明変数 x の目的(結果)の意味になります

例えば、屋台のソフトクリームの販売数量とその日の気温に或る関係があって、気温が定まるとソフトクリームの販売量が定まる時、気温が説明変数、ソフトクリームの販売量が目的変数になります。


関連ページ
データ分析の解説/メニュー
posted by haku1569 at 07:31| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

2016年08月28日

データの標準化とは? / データ分析の解説

実際のデータを分析していくと、色々な種類のデータの分布の様子を比較したりする場合があります。例えば身長と体重の様な異なる単位のデータや数学の点数と国語の点数の様に単位は同じでも条件が異なるデータとか、、
そのような時にいわゆる同じ土俵に上げないと比較出来ません。そのために予めデータを揃えて(変換して)同じ土俵に上がるようにしておきます。
その様にデータを変換することを、標準化(Standerdinze)と言って、標準化されたデータを"標準化係数"、"標準化得点"、"z得点"等と言われます。

で、どうデータをそろえるかと言うと、変換後のデータの平均値が"0"、標準偏差が"1"になるようにそれぞれのデータから元のデータの平均値を引いて、元のデータの標準偏差で割ります。ここで、標準偏差で割っているので標準化されたデータは無次元量(単位が無い)になります。ので、身長と体重も比較できるようになるわけです。
20160828_00.jpg
ちなみに、データが正規分布の場合、標準化したデータ、平均値が"0"、標準偏差が"1"の正規分布を"標準正規分布"(Standard normal distribution)と言います。

Excelで、標準化したデータの平均値と標準偏差を求めてみましょう。
こんなデータがあります。
平均値と標準偏差をAVERAGE関数、STDEV関数で予め求めておきます。
20160828_01.JPG

標準化データを計算します。
其々のデータから平均値を引いて標準偏差で割ります。
すると、その平均が"0"、標準偏差は"1"になりました。
20160828_02.JPG

Excelではデータを標準化するSTANDERDIZE関数と言うのがあります。
てっきり、元データの範囲を指定すると平均値や標準偏差も計算してデータを標準化してくれるのかな?と思ったのですが、平均値と標準偏差は別途計算しておきそれを引数として引用するだけなので、あまりメリットはなさそう。。
20160828_03.JPG

んで、データを標準化すると標準正規分布になるわけではないので誤解の無いように。。

では、次回は標準正規分布を変形した偏差値についてまとめてみました。
20150301_01.jpg



バックナンバー
分散と標準偏差(ばらつき)についてまとめてみた
データの変動と分散についてまとめてみた

関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
データ分析の解説/メニュー
ラベル:標準化
posted by haku1569 at 17:45| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

コイン投げ(二項分布と中心極限定理の検証)/ データ分析の解説

そもそも正規分布とは何ぞやと、元にたどろうとすると、“二項分布”だの“中心極限定理”だのというところから、統計学的に解き明かさないといけなくなっちゃうんですが。。。
二項分布というのは、コインを投げた時の表と裏のような二者択一の場合の確率分布のことで、サンプル数を多くすると正規分布で近似できるという中心極限定理の特殊な場合(特殊中心極限定理?)に当てはまることを数学者アブラーム・ド・モアブルがその著書の中で明らかにしたもので、その計算によって二項分布の計算がとても楽にできるようになったとか?(“二項分布”と“中心極限定理”については各自自習しておいて下さい!?)
ってことで、Excelを使うと二項分布のサンプルは簡単に出来るのでそれが正規分布になるかやってみます。
って言うか、数式で検証するんじゃなくて、Excelでコイン投げを実際にやって正規分布の様になるかグラフを画いてみます。。

コイン投げゲーム
コインを投げた時に、表が“1”、裏が“0”として乱数を発生させてみます。
確率は半々なので50%(0.5)10回連続してコインを投げるた時に表が出る回数の合計は1回も表が出なかった“0”から10回連続で表が出る“10”までの間の値になりますが、“5”になる確率が多くなるというのは想像できるでしょう。。これを確率では"期待値"と言います。
その10回連続コイン投げを200セット行った時、“0”から“10”までの分布をピボットテーブルでヒストグラムにしてみます。
Excelの“RANDBETWEEN関数”で“0”か“1”の乱数を発生させます。それを10(回)x200(セット)で2000個のデータを作ります。
20140921_1.JPG
んで、この10回の合計200セットのデータでヒストグラムを作ります。
200セットのうち10回の合計が“5”だった件数が47件、“0”や“10”は1件もありませんでした。。
20140921_2.JPG
と、正規分布の様に(近似)なりましたよね。。
もしこれが、表("1")が出ると勝ちになるゲームだとして、200人がそのゲームをしたとします。
すると、表が1回しか出なかったまったくツキがなかった人が1人いて、9回も表が出たツキまくった人が3人もいたことになります。
じゃ、10回コインを投げて表が1回しか出なかった人は期待値は5なのだから11回目は絶対表が出るはずだと思って投げました。また、9回表がでたツイてる人は運が向いてるから次も表が出るはずだと思って11回目を投げました。。。さて、2人が投げた11回目のコインは、、、
もちろん1/2の確率で表か裏が出るだけです。こんな感違いって意外にないですか?
確率についてはこちらをご覧ください。

次回は、コイン投げの表が出る確率と正規分布の確率密度について詳しく調べてみましょう!
20150101_02.jpg



バックナンバー
正規分布についてまとめてみた

関連ページ
データ分析の解説
posted by haku1569 at 14:14| データ分析の解説 | このブログの読者になる | 更新情報をチェックする

歪度と尖度 / データ分析の解説

さて、データの分布の一つである正規分布についてみてきましたが、分布の左右のバランスを表すのを歪度、上下のバランスを表すのを尖度といいます。そして歪度も尖度も"0"の時が正規分布になります。
ので、歪度と尖度の値を調べれば正規分布かどうかを判断することができます。

“歪度(わいど/skewness)”はグラフのひずみつまり左右対称ではない程度を表します。歪度が0より大きいと左偏り、0より小さいと右偏り、0の時左右対称になって正規分布である目安になります。
“尖度(せんど/Kurtosis)”は読んで字のごとくグラフの尖り具合ということなのですが、むしろ裾の形の厚さというか、“裾の重み”と言われる場合もあります。尖度が大きいと尖ったグラフつまり中心部分が高く裾が薄くて広いグラフになって、尖度が小さいとなだらかな高さが低く裾は厚くて短いグラフになります。この尖度が“0”ならば、正規分布である目安にまります。統計学的な定義のしかたによって“3”が正規分布になる尖度もありますが、Excelの場合は“0”です。
20161010-01.jpg

ではそれぞれの式をみてみまよう。
歪度は、
20161010-02.jpg

尖度は、
20161010-03.jpg

ちなみに"(xi-xチルダ)/s"、つまり"(データ値-平均値)÷標準偏差"を"z値(zスコア・z得点)"と言って、各データの平均値とのばらつきが標準偏差の何倍か(いわゆる「何シグマ」)を表す値です。
歪度はその3乗の平均値、尖度はその4乗の平均値-3ということです。

Excel では、歪度は"SKEW関数"、尖度は"KURT関数"で求めることができます。


バックナンバー
信頼区間と標本誤差についてまとめてみた
確率と正規分布の確率密度についてまとめてみた
コイン投げ(二項分布と中心極限定理の検証)
正規分布についてまとめてみた


関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
データ分析の解説/メニュー
ラベル:尖度 歪度
posted by haku1569 at 13:59| データ分析の解説 | このブログの読者になる | 更新情報をチェックする