言葉にできるは武器なるらしい

言葉に文字に残していきます何事も。いつかきっと誰かの役に立つはずだから。

分かりやすい標準偏差

統計学では標準偏差をσ(シグマ)で表す。
そもそも標準偏差とは何かを一言で言うと
平均値からの揺らぎ(広がり)です。
つまり、平均値からどのくらい離れていてもわりと普通の値なのか、ということの指標になります。

式で書くと、標準偏差σはこのようになる。

f:id:rodeeeen:20170809135759p:plain


式で見るととても難しそうだが一旦意味を理解してしまえばさほどでもないので
分かりすく噛み砕いていきます。

標準偏差を分かりやすく説明する例として、何でもいいのですが、男性の平均身長を例にしてみましょう。

今ここに標本(統計の計算の元となるサンプル的なもの)となる男性10人がいるとします。
それぞれの身長を分かりやすく2cm刻みで、
170cm、172cm、174cm、176cm、178cm
180cm、182cm、184cm、186cm、188cm

の10人がいるとしましょう

ここからまず平均値を出します。
平均値は全員の身長を足して人数で割りますので
(平均値)= 1790 / 10 = 179cm

179cmになります。

次にここから標準化という考え方をします。
これは何かというと平均の179を0として考えるということです

つまり179がゼロなので、全員の身長から-179をすればいいわけです

そうすると、
-9、-7、-5、-3、-1、1、3、5、7、9
となります。

この数字はそれぞれが平均値からどのくらい離れているのか、ということがぱっと見でわかるようになります。
そしてさらに、±9の差があることをもっとまとめたいので
つまりマイナスの記号をなくしたいので、それぞれの値を二乗します。

すると、今度はこうなります。
81、49、25、9、1、1、9、25、49、81、

そして、もう一回この状態で平均を取ります。
つまり、上記の10個の数値をまた足して10で割ればいいわけですね。

330 / 10 = 33

この作業をすることでマイナスを排除することが出来ました。

最後に、この33という数値は、二乗しているのでそれを戻します。
二乗を戻すには、ルートに入れます。
√33

ルート33は綺麗には割り切れませんが
5の二乗の25と、6の二乗の36の間ですので、
5.xxxx という数字になるはずですね。

一応計算式で計算すると、5.74456264654 と出てきました。

この5.7が標準偏差σです。


ここまでの流れを数式にしたのが冒頭に出たこれです。

f:id:rodeeeen:20170809135814p:plain


Σは総和を意味しています。一人目から十人目までを足していってます。
Xiは一人ひとりを表しています、つまり、X1さん、X2さん、、、、X10さん
Xの上に線が入っている記号が平均値になります、今回の場合だと179cmですね
nはXが何人いるかのカウントですので、今回だと10人ですので10となります。
iはそのカウントは1から始まるよ、ってことです、たいてい1から数えますよね。
二乗している理由と、ルートで戻している理由は左記に述べたとおりです。

こんな感じで、式だけ見たら厄介だけど、何をしたかったのかを理解できれば、この式もすんなり入ってきくると思います。

この次の話としては、じゃぁその標準偏差の使い方は?ってことなんですが、
それは正規分布の話をしてからじゃないとなので、また今度気が向いたらで.