データマイニングとは、データベースから情報を抽出し、自動的にパターンを発見する分析手法です。近年、ビッグデータをマーケティングに活かすためデータマイニングは必要不可欠となっています。本稿では、データマイニングの意味やできること、分析手法と活用法、機械学習との関連性など、詳しく解説します。
データマイニングとは?意味解説
画像出典:pixabay
データマイニングとは、構造化されたデータベースから情報を抽出し、自動的に傾向やパターンを発見する分析手法です。
顧客の購買行動など、データを分析することにより、商品の購入率の予測や商品の分類、商品と顧客の関連データ発掘などに用いられます。
データから有益な情報を採掘(マイニング)することからこのように呼ばれます。
また、テキストデータを分析する際は、「テキストマイニング」と呼ばれます。
テキストマイニングとは、構造化されてないテキストデータから、新しい情報を抽出する分析手法です。
大量のデータから情報を抽出することで、文章中の単語の使用頻度や傾向、相関関係など、さまざまな特徴を分析する際に用いられます。
データマイニングの種類
データマイニングは、「知識発見」と「仮設検証」の2つに大別することができます。
知識発見(探索)
データマイニングは、蓄積されたデータから、新しいパターンやルールといった知識を自動的に発見(探索)します。ビッグデータに有効な手段であり、機械学習やディープラーニングにて多く利用されます。
仮説検証
仮説検証は、仮説(目的)に沿って、検証したい課題の解決に必要なデータを集め、分析します。機械学習やディープラーニングに限らず、従来の統計的手法が使われることもよくあります。
データマイニングの機能
データマイニングは、大量のデータの中から有意義な情報を抽出することを目的としています。データマイニングの機能は、主に「発生確率の予測」「データの分類」「関連性の抽出」の3つに大別できます。
- 発生確率の予測
収集したデータから、受注、購入といった特定の事象が発生する確率および、その発生要因を明確にします。 - データの分類
収集した顧客や商品などに関するデータを、特徴に応じて分類します。 - 関連性の抽出
収集した大量のデータから、同時に発生するなど、相関関係を探索・抽出します。
データマイニングの活用法
データマイニングは、幅広い業界でマーケティングの課題を解決するために役立っています。たとえば、以下のようなケースで活用されています。
- 小売業
顧客データベースを活用することで、より効果的なキャンペーンを実施することや、顧客に対して効果的なオファーを行うことが可能になります。 - 製造業
製造業では、生産設備の老朽化を把握することや、設備の保守・整備を適切なタイミングで実施することにデータマイニングが役立ちます。 - 教育
学生の学習の進捗状況データから学生の理解度を予測することにより、教員が最適な指導を行えるようになります。
データマイニングの手順
画像出典:pixabay
データマイニングは、以下の手順で実施します。
①目的を定め、目的に沿ったデータを集める
「ともかくビッグデータさえあればOK」というわけではありません。効果的なデータマイニングを実施するためには、目的と合致したデータを集める必要があります。そのために、まず、データ収集の目的を定め、その目的に沿ったデータを用意することが求められます。
②収集したデータの加工・整理
収集したデータには、「ノイズ」が含まれているため、,そのまま分析を行うことはできません。データがある程度揃った後、それらをデータ加工・整理する「データクレンジング」の作業が必要になります。
③分析(パターンの発見、グループ化など)
分析のプロセスでは、クラスタリングやロジスティック回帰分析、マーケット・バスケットといった手法を用いて、データのパターンを発見したりグループ化したりします。それぞれの分析手法の詳細については後述します。
④検証・評価
分析の実施後、その分析結果について、要因の特定を行います。さらに、検証結果を基にルールを作成・仕組み化し、それを実際のデータに当てはめることで検証・評価を行います。
データマイニングの分析手法
画像出典:pixabay
データマイニングでは、主に「クラスタリング」「ロジスティック回帰分析」「マーケットバスケット」の3つの分析手法がよく使用されます。また、現在は「機械学習」で行われる分析手法も用いられています。
クラスタリング
クラスタリングとは、データを類似性に基づいて分類するための手法です。購買データをもとに同じような行動をとっている顧客をグループ化し、そのグループごとに異なるマーケティング施策を実施する場合などに役立ちます。
ロジスティック回帰分析
ロジスティック回帰分析は、「Yes」「No」を明確に定義できるものを分析する場合に適した手法です。たとえば、キャンペーン実施時に、DMを送付した顧客が商品を購入するかどうかを予測する場合などに用いられます。
マーケット・バスケット
マーケット・バスケット分析は、小売店の販売データから同時に買われることの多い商品を見つける際に使われる手法です。
関連性が薄いように見えて実は同時に購入されることの多い商品や、逆に関連商品のように思えても同時に購入されることが少ない商品を明確にすることで、効果的な売り場づくりに役立ちます。
機械学習
データマイニングは、先述した統計分析手法のほかに、AI(人工知能)を用いることもあります。AIを使ったデータ分析では、PythonやRなどのプログラム言語がよく使用されます。とくに、Pythonは、データ分析をするのに便利なライブラリが充実しており利用しやすく、データから法則や関連性を見出す「知識発見」で有効な手法となります。
データマイニングが、新たな知見の発見につながる
レッジ編集部にて作成
データマイニングに関する有名な事例として、「ビールと紙おむつ」があります。
これは、「紙おむつを購入した男性は、同時に缶ビールを購入することが多い」というデータに基づき、この2つを並べて陳列するようにした結果、売り上げが上昇した、という米国のあるスーパーでの事例です。
「ビールと紙おむつ」では、データマイニングのおかげで、一見関係なく見える2つの商品の関連性を発見できました。このように、データマイニングをマーケティングに活用することで、新しい法則や知見を獲得し、ビジネスを加速させることができるかもしれません。