ランダムフォレスト

ランダムフォレスト|マーケティングで使えるAIの理論、「とにかく問い続けよ」

AI(人工知能)で使われている理論の1つ、ランダムフォレストとは、決定木(けっていぎ)を複数個集めたもの。

このランダムフォレストは、マーケティングに応用することができます。

例えば、マーケ―ターが、来店客のなかから購入単価が高い客をみつけることができれば、その客にアプローチすることで売り上げ増を期待することが可能。

購入単価が高そうな客をみつけるには、ランダムフォレストを使って、何回も「問い」続けていけばよいのです。

用語解説:決定木とは、ランダムフォレストとは

ランダムフォレストの考え方はそれほど難しくないものですが、「決定木とは何か」を知らないとまったく理解できないので、まずは用語について解説していきます。

YES or NOを尋ね続ける

次の4つの質問にすべてYESと答えると、最後の「?」に何が当てはまるでしょうか。

  • あなたは動物が好きですか
  • あなたはペットを飼いたいですか
  • あなたはペットを散歩させるのが好きですか
  • あなたはペットと一緒に海辺を走りたいですか

★あなたに向いているペットは「?」です

全ての質問にYESと答えると、「?」は犬になるはずです。

これが決定木です。

決定木の構造はこのようになっています。

1つの質問にYES or NOで答えると、YESにもNOにも次の質問が現れます。

ここではNOと回答したときの次の質問を省略していますが、実際の決定木ではNOにも新たな質問を設定します。

なぜ決定木は答えにたどり着くのか

決定木が優れているのは、これを利用すれば多くの人が、特別なスキルを必要とせず、かなり高い確率で「答えは犬である」という答えを得られるからです。

決定木の複数の質問は階層構造になっていて、進むごとに対象が絞られていきます。

例えば、「あなたは動物が好きですか」の質問にYESと答えても、犬なのか猫なのかライオンなのかわかりません。しかし、続いて「あなたはペットを飼いたいですか」の質問にYESと答えると、ライオンの選択肢が消えます。

「あなたはペットを散歩させるのが好きですか」の質問にYESと答えると、犬の確率が高くなりますが、猫にハーネスをつけて散歩させる人もいるので、この段階では猫の選択肢を消すことはできません。しかし、「あなたはペットと一緒に海辺を走りたいですか」にYESと答えれば、これはさすがに「犬しかない。猫ではない」と判定してよい、となります。

この質問の階層構造が木の枝のようになっているので、決定「木」と呼ばれているのです。

なぜフォレストにする必要があるのか

先ほど、ランダムフォレストは決定木を複数個集めたもの、と紹介しました。

決定木が1つでも犬という答えを導くことができたのに、なぜ複数の決定木が必要なのでしょうか。

その理由は、もし「私はペットの猫と一緒に、海辺をよく走っている」という人が現れたら、先ほどの決定木だけでは「答えは犬である」ことが確定しないからです。

そこで、次の決定木を足します。

決定木を足すと、答えが犬になる確率がさらに高まります。

このように、1つの決定木で結論を出すより、ランダムフォレストで結論を出したほうが(複数の決定木の結果を使って結論を出したほうが)、正解にたどり着きやすくなります。

AIはランダムフォレストで正解を出す

正しい答えを出す確率が驚くほど高いことから、身近な科学技術となったAIですが、正しい答えを出せるようになった要因の1つが、ランダムフォレストの開発です。

従来のコンピュータでは、大量の顔写真を 男性と女性にわけることはできませんが、AIの画像認識技術を用いると、軽々と男性と女性にわけることができます。

なぜなら、男性の顔にも女性の顔にも、2つの目と耳、1つの鼻と口がついているからです。

顔写真から「目が2個あるか」「耳が2個あるか」「鼻が1個あるか」「口が1個あるか」といった特徴を抽出できても、普通のコンピュータは男女の区別がつきませんが、AIの画像認識技術は、大量の決定木を使って大量の答えを出すことで、男性か女性か判断を下します。

ランダムフォレストでは多数決が行われます。

10個の決定木で顔写真を判断するとき、8個の決定木が女性と判断し、2個の決定木が男性を判断したら、このAIは「この顔写真は女性」と判断します。

ランダムフォレストはこのようにマーケティングに応用する

ランダムフォレストの考え方をマーケティングに応用する方法を紹介します。

優良顧客の特徴を探せ

セレクトショップを運営する会社が、1回の買い物で1万円以上購入する優良顧客を増やす、という目標を掲げたとします。

このとき、セレクトショップの店員は、来店客のなかから1万円以上購入「しそうな」人をみつけて積極的に接客しなければなりませんが、この見分けるための手法にランダムフォレストを用いるのです。

このセレクトショップが来店客の「滞在時間」と「客と店員との会話時間」を調べたところ、以下のグラフのようになったとします。

グラフ, 散布図

自動的に生成された説明

来店して何かを購入した客30人を観察したところ、1万円以上購入した客(青丸)が15人、1万円未満のものを購入した客(赤丸)が15人。

このグラフから、店内の滞在時間が長いほど、そして、店員との会話時間が長いほど、購入金額が高くなる傾向がわかります。

これだけでも重要な情報ですが、「店内の滞在時間が長いほど、店員との会話時間が長いほどよい」しかわからないと、経験が浅い店員は、客にどれくらい店内にいてもらって、客とどれくらい話せばよいのかわかりません。

そこで、30人の客をさらに詳しく分析したところ、以下のことがわかったとします。

グラフ, 散布図

自動的に生成された説明
  • 店内の滞在時間が20分以上になると、1万円以上購入した人が11人、1万円未満購入者が4人になった
  • 店員との会話時間が8分以上になると、1万円以上購入した人10人、1万円未満購入者が3人になった
  • 店内の滞在時間が20分以上、かつ、店員との会話時間が8分以上になると、1万円以上購入した人が8人、1万円未満購入者が0人になった

このこことから、セレクトショップは、1)客に20分以上滞在してもらう工夫をして、2)8分以上話す接客をすればよい、ということがわかります。

これを、ランダムフォレストで説明するとこのようになります。

まとめ~問い続ける姿勢が大事

ランダムフォレストの基本は、問い続けることです。

購入単価が高い客の特徴を探すのであれば、「店内滞在時間は?」「定員との会話時間は?」「年齢層は?」「子供連れか?」「夫婦か?」「土日祝日か平日か?」「駅前店か郊外店か?」「晴れの日か雨の日か?」といったような問いを設定し、客を観察してデータ化。

求める結果(購入単価が高い客の特徴をみつけること)と関係しないような問いに答えがあるかもしれないので、問い続けることが大事です。

無料お役立ち資料フォーム


<参考>

【機械学習】回帰木・決定木で予測モデルを作成する【手順あり】

ランダムフォレストの概要を大雑把に解説

決定木分析(ディシジョンツリー)とは?概要や活用方法、ランダムフォレストも解説