t検定 アンケート

t検定を実施する意義とは?数式を用いずに解説【アンケートの応用知識】

マーケターが、「消費者は、事象Aと事象Bについてどのように考えているのか」を知りたいと思いアンケートを行ったところ、事象Aをよいとする意見が80%、事象Bをよいとする意見が40%という結果になったとします。

このとき単純に「事象Aは事象Bより2倍よい」という評価になるか、というと、そうはなりません。なぜなら、数学的には80%と40%の差は算出できますが、2つの事象のよさの差は数学的に「簡単に」割り出すことができないからです。

しかし、「複雑な計算」をすれば、2つの事象のよさの差を割り出すことができます。

その複雑な計算がt検定です。

マーケターが、アンケート結果が物語ることを正確に把握するにはt検定が有効ですが、その計算方法は複雑で難解です。

そこでこの記事では、極力数式を使わずにt検定を実施する意義を解説してみます。

t検定が必要になるのは数字が嘘をつくから

アンケート結果の集計や分析は数値化しますが、数字はときに嘘をつくことがあります。

数字は、正しく計算されていれば普通は嘘をつきません。しかし、正確に集計して正確な数字を算出しても、それが実態と大きくかけ離れることがあります。これを数字の嘘と呼びます。

例えば4人のテストの点数が100点、20点、30点、15点だったとします。このときの平均点は41.25点になります。計算式は以下のとおりです。

(100+20+30+15)÷4=41.25

41.25点が平均点であることは間違いないのですが、41.25点が「4人の大体の点数」とはいえないでしょう。なぜなら4人中3人が41.25点をはるかに下回っているからです。平均点は、大体の点数を把握するために算出するので、これでは平均点を算出する意味がありません。つまり、41.25点は、実態を反映してない嘘の数字とみなすことができます。

t検定には、嘘の数字を見抜く能力があります。

アンケート結果の集計で発生する嘘とは

アンケート結果の集計でも、t検定を使わないと、正しく計算できているのに嘘のデータになってしまうことがあります。

たとえば、「あなたはチョコレートを頻繁に食べるますか」という質問に対して、「頻繁に食べる」と回答した人の割合が下記のようになったとします。

  • 女性:40%
  • 男性:15%

この数字は数学的に正しいものですが、マーケターはt検定をするまでこの数字を信じないほうがよいでしょう。

なぜなら、この数字を信じてしまうと、例えば「女性向けのチョコレートPRを展開しよう」といったマーケティング・キャンペーンを発案、もしくは、「男性向けPRを強化すれば、未開拓市場を掘り起こせるかもしれない」と考えるかもしれません。

そのように発想するのは、「女性40%、男性15%」という結果から「女性のほうが男性より頻繁にチョコレートを食べている」と推論したためですが、このアンケートで実際に回答した人数が次のような場合、いかがでしょうか。

  • 女性:回答者数10人
  • 男性:回答者数100人

この割合だと、女性の回答結果は1人の回答によって大きく変わるのに対し、男性の回答結果は1人の回答によってほとんど影響を受けることがありません。

したがって、このアンケート結果は、次のようにいうことができます。

●「女性40%、男性15%」という結果が出たが、男女の回答者数が大きく異なるため、必ずしも「女性のほうが男性より頻繁にチョコレートを食べている」とはいえない

つまり、このアンケート結果は当てにならないということであり、t検定が必要となるのです。

t検定は仮説検定の1つ

t検定は仮説検定の1つです。仮説検定とは、ある仮説について統計学的な手法を用いて正しいか否かを検証する作業のこと。

例えば、「男性はからい食べ物が好き」という仮説を立て、これを確かめるために(検証するために)アンケートを実施したとしましょう。

アンケート結果を統計学的に分析して、男性はからい食べ物が好きで、その好きの程度は女性の好きの程度をはるかに上回るといえたとき、仮説は正しいという結論が得られます。

確率は数学のなかでは特殊で、100%正解でなくても構わないという性質があります。

大抵の数学は「1+1=2は正しい」「2×2=5は間違っている」といったように、結果は100%正解か100%間違いになります。

しかし、確率は、「女性にもからい食べ物が好きな人はいるし、男性にもからい食べ物が苦手な人もいるが、確率的に男性はからい食べ物が好きといえる」という答えが正しいとされることがあるのです。

t検定のKWは「帰無仮説」「有意水準」「t値」「p値」

t検定では、知りたい事実と反対の事実の仮説を立て、その反対の事実の仮説を否定できたとき、知りたかった事実は正しかったと判定します。

つまり「Aである」ことを確認したい場合、「AならBでない」というBを探し、「Bでない」ことを証明して「Aであるといえる」と結論づけることを目指します。

t検定を理解するうえで重要になるキーワードは、「帰無仮説」「有意水準」「t値」「p値」の4つです。

帰無仮説とは

知りたい事実と反対の事実の仮説のことを、帰無仮説といいます。

例えば、「女性40%、男性15%の間には有意な差がある」ことを確認したい場合、帰無仮説は「女性40%、男性15%は誤差の範囲である」となります。

「女性40%、男性15%は誤差の範囲である」といえないことが証明されれば、「女性40%、男性15%の間には有意な差がある」といえます。

有意水準とは

有意水準とは判断基準となる確率です。

一般的に5%が使われるので、以下の説明でも5%を使います。

帰無仮説の発生率が5%より低い場合、「その現象は滅多に起きない」と判定します。

t値とは、p値とは

t値とは、比較するデータに意味ある差があるかどうかを示す数値であり、p値とは、得られたデータの希少性を示す数値です。

t値もp値も複雑な計算式で求めます。普通は統計専用のソフトを使います。

p値が有意水準を下回れば知りたい事実は正しかったといえる

「女性40%、男性15%は誤差の範囲である」ことのp値が算出できたら、有意水準と比較します。

ここではp値が3%と算出されたと仮定。有意水準は先ほど決めたとおり、5%とします。

この場合、p値が有意水準を下回るので、「女性40%、男性15%は誤差の範囲である」という現象(帰無仮説)は滅多に起きないと判定できます。

滅多に起きないので、この帰無仮説は否定されました。

「女性40%、男性15%は誤差の範囲である」ことが否定されたので、「女性40%、男性15%の間には有意な差がある」ことを確認できたことになります。

知りたかった事実である「女性40%、男性15%の間には有意な差がある」は、正しい確率が高いといえます。

まとめ~有意水準は基準だから動かさない

計算式をほとんど使わずt検定を解説してみましたが、いかがでしたでしょうか?

t検定で重要なのは有意水準です。有意水準は基準なので、ぐらついたら計算する意味がありません。したがって、有意水準はt検定を始める前に決めて、動かさないことが大切です。

アンケート結果から特殊なデータが浮かび上がってきたら、t検定でそのデータの価値を測定してみてください。

無料お役立ち資料フォーム


<参考>

高等学校数学科における仮説検定の学習指導の系統性に関する一考察