統計における分散とは?意味や求め方、標準偏差との違いを詳しく解説します

データを分析する際に良く用いられる方法として「平均値」がありますが、データの分析には「平均値」以外にもさまざまな方法があります。 そして、データを分析することで数字の持ついろいろな意味を把握できて、奥深さと面白さを感じることができます。 今回は数ある分析方法の中から、「分散」と「偏差」について解説します。 この記事を読めば、分散と偏差について詳しく分かる内容になっているので、ぜひ最後まで読んでみてください。

分散とは?

分散は、データのばらつき度合いを表します。データのばらつきが大きいと、分散も大きくなり、小さくまとまったデータだと分散は小さくなります。 たとえば、5日間の売上が1,000円、1万円、5,000円、2,000円、1万8,000円だったとしましょう。 この場合、平均すると1日平均7,200円の売上があることになります。 しかし、1日ごとを見ていくと、最大1万7千円の差があるのです。 こういったデータのばらつきを分散といいます。

平均だけではデータを活かせない

統計 分散 前述したとおり、5日間の平均売上は7,200円。しかし、だからといって、毎日7,200円分の発注をすればよいかといえばそうではありません。 仮に、販売可能期間が1日だけの商品の場合、売上1,000円の日に7,200円分発注してしまえば、6,200円分の廃棄を出してしまうことになります。 反対に、1万8,000円の日に7,200円分しか発注しなければ、1万200円の機会ロスにつながってしまいます。 このように、単に平均だけを見てしまうとデータを活かしきれません。そのため、データを見る際にはどれだけ散らばりがあり、どのような傾向があるのかを察知しなければならないのです。 そこで役に立つのが分散です。

分散の活用方法

分散は「データのばらつき」ですが、どう活用すればいいのでしょうか。 分散データの活用方法は様々ですが、小売業では、主にリスク管理に使われています。 分散と平均をつかうことで、商品が平均して売れているか、そして、安定して売れているかどうかを調べることができます。 これらを知ると、商品を4つに分けることができます。 a.売上が多く安定して売れている商品 b.売上が多く突発的に売れている商品 c.売上が少なく安定して売れている商品 d.売上が少なく突発的に売れている商品 統計 分散 aの商品は文句なしの売れ筋です。そのため、商品の在庫数を増やしても問題ありません。 bの商品はたまに売れるだけなので、商品数を増やすのには「いつ売れるかわからない」リスクがつきものです。 cの商品は安定して売れているので、仮に増やし過ぎても、その後の発注を減らしさえすれば、十分に対応が可能です。 そして、dの商品は商品数を減らしたり、商品を変更したりするなどの対応が求められます。 このように、「分散」はデータを調べてそれぞれの商品についてどのようなアクションをするかを決定するために用いられるのです。

分散の求め方は?

分散とは、データを分析する上でとても役に立つ要素ですが、どのように求めればいいのでしょうか。 多くのサイトで分散を求める計算式が紹介されていますが、高校以上の数学知識が必要で理解するのが難しいと感じる方もいることでしょう。 そこでもっと簡単な求め方を紹介します。 それは、各数値の「二乗の平均」から「平均の二乗」を引くという求め方です。 例として挙げた5日間の売上の平均は、7,200。二乗すると51,840,000となります。 また、それぞれの値の二乗を平均すると(計算式は数値が大きいので割愛)90,800,000。これらの差を求めると、38,960,000となります。 「数値」ー「平均値」(これを偏差といいます)の二乗を合計し、数値の個数で割っても(偏差の平均)出るので試してみて下さい。 分散はこのデータが平均からどれくらい離れているかを示すものですが、約4千万離れていることになります。かなりバラけていることがわかりますね。 もはやなんのことだろうと思う方もいるでしょう。それもそのはず。そもそも計算の段階で数値を二乗しているので、どうしても数が大きくなるのです。そのため、分散だけでは実態がつかみにくくなっています。

分散は標準偏差と何が違う?

統計 分散 分散を活かすには、もう一つ求めなければならないものがあります。 それが、標準偏差です。 標準偏差は、√分散で求められます。 先程の数値で求めてみると、√38960000≒6242。これが標準偏差です。 標準偏差は、「平均を中心に大体の数が入っているエリア」を示す値なので、この場合、平均から±6,242円の間に売上が集まっているということを示します。 確かに、18,000という大きな数字以外はみんな標準偏差内に収まっていますね。 このことが示すのは、このお店では、下は約1,000円から上は13,200円までの間で売上が推移することが多く、それを超えるのは、かなり特別な日だったということです。 統計 分散 発注に活かすとすれば、1,000円以下の売上を想定して発注するのも、13,200円以上の売上を期待して発注するのもリスクが高いということになります。 もちろん、大きなイベントが近くであるなどの特別な事象にも対応しなければなりませんが、常時はこの範囲内で発注することを、意識しておけば無難といえるでしょう。 【関連記事】標準偏差とは?標準偏差の意味や求め方、求める理由について詳しく解説します https://kotodori.jp/analytics/what-is-standard-deviation/

学生時代に気になっていた偏差値とは

先程求めた標準偏差は、「それらの数値がだいたいどの範囲に収まっているか」を求めるものでしたが、”偏差”と聞いて真っ先に思いつくものとして「偏差値」を思い浮かべる人も多いでしょう。 偏差値とは、その数値がデータの中でどの位置にいるかを示したもの。 つまり、標準偏差は「偏差の標準値」だったのに対し、偏差値は1つ1つのデータに、よりフォーカスを当てたものです。 ちなみに、偏差値はテストの点だけでなくいろんな数で求めることができます。

偏差値の求め方

偏差値の公式は 偏差値=(数値-平均)/標準偏差×10+50 標準偏差さえ出してしまえば簡単に計算できます。ちなみに、先程の売上18,000円で計算すると、 偏差値=(18000-7200)/6232×10+50≒67.3 67.3という数値は大体上位3~4%。 このお店の中で、上から3~4%に入るかなり売上の良い日だったということです。 統計 分散 日頃からこんな特別な日を想定して発注しても、あまり意味がないといえるでしょう。 ちなみに、偏差値67は、北海道大学や千葉大学、お茶の水大学などの有名国立大学から、青山学院大学、上智大学、中央大学などの名だたる大学が該当します。 気になる値がある場合、ぜひ偏差値を求めてみてください。

まとめ

平均を求めただけでは、データの面白さはわかりません。 多くの学生が漠然と使っている偏差値にも、このような求め方と意味があったのは驚きですね。 データには様々な分析方法があり、今回紹介した分散と標準偏差、偏差値はその基本的なやりかたです。 いろんな計算式をつかって、データのもつ面白さを体験してみてください。

無料お役立ち資料フォーム


<参考サイト>
  1. 統計学における分散と不偏分散 例題でわかりやすく解説 ( 全人類がわかる統計学)  https://to-kei.net/basic/glossary/variance/
  2. 分散の求め方と公式。その有用性について (アタリマエ!)  https://atarimae.biz/archives/8782#i-2
  3. データからワンランク上の規則性を見つけるために 「分散」と「標準偏差」をざっくり理解し、エクセル分析しよう (1/4)(MarkeZine(マーケジン))  https://markezine.jp/article/detail/15763
  4. 分散の意味と求め方、分散公式の使い方(sci-pursuit.com) https://sci-pursuit.com/math/statistics/variance.html
  5. 目的を考え「平均・分散」活用 ( GLOBIS 知見録)  https://globis.jp/article/1222
  6. 標準偏差・分散の意味と計算方法 (統計学が わかった!)  https://toukeigaku-jouhou.info/2015/08/23/post-283/
  7. 分散の意味と二通りの計算方法 (高校数学の美しい物語) https://mathtrain.jp/variance
  8. 偏差値と上位パーセントの対応表 –(私は何から出来ているのか?) https://komoriss.com/standard-score/
  9. [難易度(偏差値)67] 1/3 | 大学検索(Benesse マナビジョン) https://manabi.benesse.ne.jp/daigaku/search/__67-__/1.html