【統計学の基礎】大きく3つに分けられる統計学、それぞれの特徴とは

この記事を読むのに必要な時間は約 10 分です。

「統計学とは?」と聞かれて、どういう答えを思い浮かべるでしょうか?

「分散」や「標準偏差」、「母数」や「標本」などのキーワードを思い浮かべる方もいると思いますが、「統計学」=「難しそう」というイメージを持つ方も多いと思います。

統計学とは、さまざまなデータを調べて、性質を知るための「学問」のこと。

AppleやGoogleなどの大企業が注目していることも話題となっていますが、「統計学」とはそもそもどういうものでどういう種類があるのか、そして、なぜ注目されているのか、分かりやすく解説します。

統計学とは?

統計学とは、「統計」を扱う「学問」のこと。

「データ」にはさまざまなものがありますが、全体をただ眺めてもその特徴を知ることはできません。

データの特徴を知るためには、データの平均を出したり、一定の特徴に基づいて分類するなど、データに手を加えることが必要ですが、データ全体から一部のデータを抜き出してその性質を調べて全体の性質を推測する、というのが「統計学」です。

統計学は、行政や教育、医療やビジネスなど、さまざまな場面で用いられています。

統計学は大きく分けて推測統計学と記述統計学、ベイズ統計学の3つ

統計学は、推測統計学と記述統計学、ベイズ統計学の3つに分けることができます。

それぞれの特徴について、分かりやすく見ていきましょう。

推測統計学

推測統計学とは、母集団から一部のデータ(標本)を抜き出して、そのデータの特徴から母集団の特性を推測するという方法です。

推測統計学は、推定と検定にさらに分けることができます。

推定とは、平均など、具体的な値を予測をすることであり、検定とは、母集団について立てた仮説が正しいかどうかを統計学的に判定することをいいます。

例として、日本人の平均身長で考えてみましょう。

平均を求めるには、全数調査をするのが一番正確な方法となりますが、日本人の平均身長となると、全数調査をするのは困難です。

したがって、標本となるデータを抜き出して、その平均を求め、日本人の平均身長を推測する、というのが妥当な方法となります。

これが推測統計学です。

そして、推定は、抜き出したデータから日本人の平均身長を推測する、ということであり、検定は、日本人の平均身長は170cmと言われているけれど、抜き出したデータの平均が168cmであった、という時に抜き出したデータが妥当であったかどうかを判定すること、といえます。

推定には、「点推定」と「区間推定」という2つの方法があります。

点推定は「1つの値」を抜き出して推定するのに対し、区間推定は「一定の区間の値」を抜き出して推定することをいいます。

推測統計学を利用している例としては、上記で挙げた「日本人の平均年齢」の他に、「テレビ番組の視聴率」や「平均年収」「「選挙の出口調査」などがあります。

記述統計学

記述統計学とは、集めたデータから表やグラフを作ったり、平均や傾向を調べることによってデータの特徴を把握する、という方法です。

調査を行う際には、多くのデータを集めますが、そのデータをエクセルに入力してみても、その特徴は分かりません。

したがって、データがどういうことを表しているかを知るために、表やグラフを作るという方法が用いられます。

テスト結果を例に挙げて考えてみましょう。

92 68 78 72 93 58
49 38 85 54 66 76
78 90 88 75 52 50
47 81 89 80 76 68

テストの点数を表に入力してみましたが、この表を見るだけでは、その特徴は分かりませんよね。

そこで、次のような表を作成してみます。

区画 度数
~50 3
50~60 4
60~70 3
70~80 6
80~90 5
90~ 3

この表は度数分布表と呼ばれるものですが、この度数分布表にまとめると、どの区画にどれくらいいるのか、が分かりやすくなります。

この度数分布表をヒストグラムにすると、下のようになります。

ヒストグラム

ヒストグラムにすると、視覚的にさらに分かりやすくなったといえるでしょう。

記述統計学には、上記のようなグラフや表を作成することも含まれます。

ベイズ統計学

ベイズ統計学とは、ベイズの定理を用いた統計学です。

ベイズの定理とは、18世紀にベイズによって発見され、ラプラスによって確立されたもの。

ベイズの定理の式は以下のようになります。

ベイズの定理

P(A|X):事象Xの状況下で事象Aが起こる確率(事後確率)

P(A):事象Aが起こる確率(事前確率)

P(X):平均してそのデータが得られる確率

P(X|A):事象Aの状況下で事象Xが起こる確率

 

ベイズ統計学は標本を必要としない考え方であり、標本を必要とする推測統計学や記述統計学と大きく異なります。

また、推測統計学や記述統計学は母数が不変でデータが変わるという考えるものであるのに対し、ベイズ統計学は母数は変わり、データが不変であるという考えです。

推測統計学や記述統計学を支持する学者とベイズ統計学を支持する学者は対立していて、ベイズ統計学を支持する人は「ベイジアン」とも呼ばれます。

ベイズの定理では「原因」→「結果」ではなく、「結果」→「原因」という「原因の確率」「逆確率」を求めるものであり、迷惑メールの判別やアプリケーションの開発、検索エンジンや機械学習に用いられています。

今、統計が注目されているのはなぜ?

推測統計学・記述統計学と、さまざまな分野で利用されている統計学ですが、統計学という考え方・学問はロナルド・フィッシャーによって築かれたものであり、近年、にわかに注目が集まっています。

その理由は「ビッグデータを分析するため」。

マーケティングでは、もともと年代や性別、所得などによるデモグラフィック特性や価値観やライフスタイルといったサイコグラフィック特性による分析がなされていました。

しかし、これらの分析ではユーザーについての理解が不十分で、ユーザーの予測も困難でした。

また、パソコンやスマホの普及に伴って、閲覧履歴や購買履歴が多量に蓄積されるようになりましたが、手作業で解析するには時間や労力がかかるものでした。

コンピュータが発展したことによって、大量のビッグデータを効果的に処理することが可能となり、これらの情報の分析をすることがマーケティング戦略や商品・サービスの開発に大きな成果をもたらしたのです。

その結果、統計学に注目が集まっているのです。

Googleのチーフエコノミストとして知られるハル・バリアン氏も「統計家はこれから先、最も魅力的な職業になる」と発言。

統計学の知識を持つ人の採用を進めています。

まとめ

いかがでしたでしょうか?

ビッグデータの時代、情報の分析がマーケティング戦略の立案や商品・サービスの開発に大きな成果をもたらすとして注目を集めている「統計学」。

ユーザーに対して有効なアプローチ方法を選択するために、深く理解することが求められています。


参考