統計で頻出する標準化とは?【意味や使用場面について詳しく解説!】

この記事を読むのに必要な時間は約 8 分です。

統計学では標準化を行ってデータから結果を出すことがありますが、統計学は専門的な用語や計算式が多く、初心者にとってはなかなかすぐに理解できないことが多いでしょう。

そこで今回は、標準化の基本的な内容や目的などを解説していきます。

具体例を挙げて紹介しているので、公式の把握はもちろん、計算式の用い方も理解することができます。

この記事は、

  • 統計学を学び始めた人
  • 標準化の基礎を押さえたい人
  • 標準化の具体例をチェックしたい人

におすすめです。

統計における標準化とは

統計学における標準化(Standardization)とは、複数あるデータの平均をゼロ、分散が1になるように変換することです。

標準化でなく、「基準化」や「正規化」と呼ばれることもあるので覚えておきましょう。

サンプルデータを標準化する値であるxを求める式は、次の通りです。

統計 標準化

※上の式におるxバーはサンプルの平均値、sは標準偏差を表しています。

標準化する目的は?

データを標準化すると、統計学における平均と分散を考慮した数字の大きさを得ることができます。

複数の状況から統計を出すときは、数字そのものを見ても正確な統計は出せません。

数字の散らばり具合を考えた上で統計を出すためには、データを標準化する必要があります。

標準化の考え方は、学校の定期試験や入試のテストで出される偏差値で利用されています。

標準化が行われたテストは標準化検査と呼ばれ、妥当性と信頼性が確保されているのが特徴です。覚えておくといいでしょう。

標準化の際に知っておきたい用語

バラつきがあるデータから意味のある統計を出すためには標準化が大切だと解説しましたが、ここからはデータを標準化する上で押さえておきたい重要な用語を紹介します。

今回は

  • 標準偏差
  • 分散
  • 偏差
  • 偏差値
  • 標準得点

の5つを紹介します。

標準偏差

標準偏差(Standard Deviation)とは、数字データのバラつきの程度の大きさを表した値のことです。標準偏差が大きくなるほど数字のバラつきが大きいことを意味します。

平均値±SDの範囲中にデータ全体の68.4%が含まれていて、平均値±2SDの範囲中にはデータ全体の95%が含まれていると言われています。

分散

標準化における分散(bariance)とは、数字データのバラつき具合を表した値のことです。分散を式で表すと次の通りになります。

分散=偏差×偏差÷度数(データ数)

分散の平方根(√分散=SD)は標準偏差になることを覚えておきましょう。

偏差

偏差(Deviation)とは、データ全体の平均値と個々の数字の差のことを指します。

偏差を式で説明すると次の通りです。

偏差=個人得点-平均点

個人得点は個人がとった得点のことですが、クラスの平均点が違うことで偏差は異なります。

偏差の値が大きくなるほどその人の成績が優れていることを表しています。

具体例として次の表を見ておきましょう。

教科 個人得点 平均点 偏差
算数 70 80 -10
英語 70 60 10

算数の個人得点が70点で、平均点が80点であるときの偏差は「-10」と表せます。

一方、英語は個人得点が70点で、平均点で60点であるため、偏差は「10」になります。

つまり、偏差の値が大きくなるほど成績が良いというわけです。

偏差値

偏差値(Deviation Value)とは、次に解説する標準得点を変換してより比較をしやすくした値のことです。

標準得点を用いて偏差値を表すと下の式のようになります。

偏差値=標準得点×10+50

標準得点

標準得点(Standard Score)は文字のごとく、得点の標準を表した値のことです。

標準得点を式で示すと次の式の通りです。

標準得点=(個人得点-平均値)÷SD(標準偏差)

標準得点は偏差÷SDで求められるということを覚えておきましょう。

標準化の方法

標準化は、正規分布を標準正規分布に変換するときに利用されることがほとんどです。

収集したデータが正規分布に沿った内容になっていると仮定できるなら、次の標準正規分布表から確率を算出できます。

z .00 .01 .02 .03 .04 .05
0 0.500 0.496 0.492 0.488 0.484 0.480
.1 0.460 0.456 0.452 0.448 0.444 0.440
.2 0.421 0.417 0.413 0.409 0.405 0.401
.3 0.382 0.378 0.374 0.371 0.367 0.363
.4 0.345 0.341 0.337 0.334 0.330 0.326
.5 0.309 0.305 0.302 0.298 0.295 0.291
.6 0.274 0.271 0.268 0.264 0.261 0.258
.7 0.242 0.239 0.236 0.233 0.230 0.227
.8 0.212 0.209 0.206 0.203 0.200 0.198
.9 0.184 0.181 0.179 0.176 0.174 0.171
1.0 0.159 0.156 0.154 0.152 0.149 0.147

上表の使い方を具体例を挙げながら、紹介していきます。

 

任意の個数をまとめ買いできる商品がスーパーで販売されているとしましょう。

この商品は平均で1人3.8個購入していて、標準偏差が3の正規分布に従っていることが分かっている場合、5個以上購入している人が全体の何%を占めているかを計算していきます。

確率を求める手順は次の通りです。

1.商品5個の購入を標準化する

 →z=(5-3.8)÷3=0.4

2.先に求めた0.4の確率を標準確率分布表で探す

 →0.345(標準確率分布表の縦軸が少数第一位の数字、横軸は招集第二位の数字)

今回の例では34.5%の人がまとめ買いで商品を5個以上購入していると分かります。

まとめ

統計における標準化は、数字データにバラつきがある場合に行われます。

意味のある統計結果を出すために、標準化は必要不可欠です。

たくさんの用語があって最初は戸惑うかもしれませんが、今回紹介した内容を参考にして標準化をしてみましょう。

 


<参考>

  1. 標準化(統計WEB)
    https://bellcurve.jp/statistics/glossary/1222.html
  2. 【例題あり】標準化について(標準偏差・偏差・分散・標準得点・偏差値)(社会と人にかかわるヒント)
    https://human-relation.net/psychology/standardization/
  3. データの標準化でユーザー分析の質を向上させる(ASH-D)
    https://ash-d.click/2018/06/15/st0615-improve-the-quality-of-user-analysis-by-standardizing-data/