統計解析とは?統計解析の種類や知っておきたい用語について詳しく紹介します

この記事を読むのに必要な時間は約 9 分です。

正確に統計を解析できれば、さまざまな施策やアプローチなどを実行できます。例えば、商品を販売する企業なら、統計解析から得た情報を基に商品開発をすれば市場のニーズに合ったものを供給できます。

いろいろな場面において統計解析を実施する必要性がありますが、専門的な学問なので基本的な内容や用語ですら理解に苦しむことがあります。今回は、そんな統計解析について初心者でもしっかり理解できるように分かりやすく解説していきます。

次のような人におすすめの内容の記事です。

・統計解析について基礎から学びたい人

・統計解析の種類が知りたい人

・統計解析に必須の用語を押さえたい人

それではまず、統計解析はそもそもどういうものなのか見ていきましょう。

統計解析とは?

統計解析とは、既存のデータを統計学の理論をベースにさまざまな視点から検証することです。統計解析を大きく分けると、次の2つの種類があります。

・記述統計

・推測統計

記述統計と推測統計の内容について、簡単に説明します。

記述統計はクロス集計や単純集計(GT)などのことで、データから性質や傾向を掴んで要約する統計解析です。一方、推測統計は多変量解析や検定などのことで、現状を基に全体の性質や特徴を予測する統計解析です。

また、統計解析は教師あり学習と教師なし学習の2つにも分けられます。

教師あり学習はすでに取得しているインターネットのデータから将来のデータを予測することであるのに対して、教師なし学習はデータ自体の特徴を把握することに重点が置かれています。具体的に言えば、ユーザーの購買履歴から嗜好をグループに分類して、グループごとに適したマーケティング施策を実施する場合に教師なし学習が用いられるという違いがあります。

統計解析にはどんな方法がある?

統計解析にはいろいろな方法がありますが、今回は次の5つについて説明します。

・クラスタリング

・主成分分析

・サポートベクターマシン

・回帰分析

・バスケット分析

それぞれの解析方法を詳しく見ていきましょう。

クラスタリング

クラスタリングは先に紹介した教師なし学習のひとつで、似た人同士をまとめて分類しようとする手法です。

クラスタリングを使うと、サイトの閲覧履歴の分析して今までにないカテゴリーを発見できます。企業からすれば新カテゴリーの発見は新しい顧客を創造できるということを表し、新たな市場や分野に進出できる可能性の発見とも捉えられるのです。

主成分分析

主成分分析は、多変数を少変数に集約してデータを簡略化する手法です。

先に解説したクラスタリングを使って継続した解析を続けると、似た人同士のグループの数が膨大になって分類が複雑化するだけでなく分析がしづらくなります。そこで、少しでも分かりやすくデータを整理するために主成分分析が用いられるのです。

サポートベクターマシン

サポートベクターマシンは教師あり学習のひとつで、過去のデータを基に新しいカテゴリーを予測する解析方法です。

サポートベクターマシンを使えば、ECサイトやWEBなどの顧客の利用頻度や購買額などを分析できます。分析結果に対して精度の高い基準を見出せると、ユーザーの行動を予測しやすくなり、適切なアプローチ方法を考える材料になります。

回帰分析

回帰分析は教師あり学習のひとつで、ユーザー数や売上高などの数値の予測に利用されます。

回帰分析を用いて自社の商品やサービスをよく利用する顧客(企業からすれば単価が高い顧客)とそうでない顧客(企業からすれば単価が低い顧客)を分析すれば、将来の売上高を予測できます。

バスケット分析

バスケット分析は、レコメンドシステムで利用される解析方法です。

レコメンドシステムとは情報フィルタリングのひとつで、ユーザーが興味を持つおすすめの情報を提示するシステムのことです。商品推薦システムとも呼ばれますが、Webマーケティングで利用されます。一定の関連性や規則性を基にユーザーの行動パターンを分析する必要がありますが、顧客に適した広告・宣伝がWeb上で可能になります。

ここまで主な解析方法を紹介してきましたが、続いては統計解析をするうえで最低限知っておくべき用語を紹介します。少し難しく感じるかもしれませんが、ポイントを絞って分かりやすく解説するのでしっかりチェックしてみましょう。

統計解析をするために知っておきたい用語も

まずは、医学系の研究では使われる11種類の統計解析を見てみましょう。

  1. 対応のある2群間の連続変数を比較する
  2. 独立した2群間の連続変数を比較する
  3. 対応のある2群間の比率を比較する
  4. 独立した2群間の比率を比較する
  5. 対応のある3群以上の連続変数を比較する
  6. 独立した3群以上の間の連続変数を比較する
  7. 比率についての多変量解析を行う
  8. 2つの連続変数の相関を評価する
  9. 2群間の生存曲線を比較する
  10. 連続変数についての多変量解析を行う
  11. 生存曲線についての多変量解析を行う

上記をすべて理解できればいいのですが、今回は統計解析をする上で最低限押さえておくべき3つのポイントを説明します。

今回紹介した解析方法では、何度も同じ言葉が出ていることに注目しましょう。下記3つの組み合わせの言葉が何度も出てきていることに気づくはずです。

・「2群間」と「3群以上」

・「対応のある」と「独立した」

・「比率」と「連続変数」

統計解析をすべて理解するのは難しいかもしれませんが、上記の3つのポイントを理解すれば統計学の解析の基本を理解できます。それぞれのポイントについて詳しく説明していきます。

「2群間」と「3群以上」

2群間と3群以上の違いは簡単で、2つのグループで比較するのか、3つ以上でデータを分析するのかの違いです。

2群間と3群以上とでは別の統計解析が用いられるため、例えば3群を比較するのに2群ずつで比較しても意味がないのです。2つのグループごとに比べればきちんとした統計解析ができるような気がする人がいるかもしれませんが、このように比較してしまうと有意差が偶発する可能性があるので、正確な統計が取れないため注意しましょう。

「対応のある」と「独立した」

この比較は理解しづらいかもしれませんが、例を挙げて説明します。

独立した2群は全員が異なる人物でグループが構成されているのに対して、対応のある2群は同一の人物のデータを比較する解析です。これを念頭に置いた上で、次の図を見てみましょう。

統計解析

独立した群を比べる場合はメンバーが違うAグループとBグループで解析をしているのに対して、対応のある群ではメンバーが同じAグループ同士を比べていることが分かります。

「対応のある」と「独立した」は、群のメンバーの構成が異なると理解すればいいでしょう。

「比率」と「連続変数」

続いて、比率と連続変数の違いはデータの種類です。

比率は一定のデータに対する割合で、違うグループ間で比率を比較すること統計を取るときに使用します。一方、連続変数は体重や身長などの数値で表せるデータのことを言います。

まとめ

統計解析とは、既存のデータを統計学の理論をベースにさまざまな視点から検証することで、解析方法は種類が豊富にあります。どのようなデータから何を解析したいかによって、適切な方法が変わってきます。

統計解析は奥が深い学問なので、なかなかすべてを理解することは難しいですが、今回紹介したポイントを押さえておきましょう。

 


<参考>

  1. 統計解析とは(市場調査・マーケティングリサーチ会社のアスマーク)
    https://www.asmarq.co.jp/glossary/word0080.html
  2. 統計解析にはどんな種類があるのか(深KOKYU)
    https://haru-reha.com/statistics-type/
  3. 統計学で理解すべき用語①(深KOKYU)
    https://haru-reha.com/phrase-1/
  4. マーケティング手法のひとつ「統計分析」とは何なのか?
    https://www.dataknowledge.jp/statistical-analysis/