テキストマイニングとは自由形式で記述された文章を分析するための手法です。SNSへの投稿をはじめとした大量の文字情報を活用するうえで大変役立ちます。本稿では、テキストマイニングの概要や活用シーン、自然言語処理という技術、オススメのツールやExcelでのテキストマイニングなどを解説します。
テキストマイニングとは?
テキストマイニングとは、構造化されてないテキストデータから、新しい情報を抽出する分析手法です。
大量のデータから情報を抽出することで、文章中の単語の使用頻度や傾向、相関関係など、さまざまな特徴を分析する際に用いられます。
情報抽出の性能を向上させるために、自然言語処理が主に用いられています。
また、テキストマイニングは、データマイニングから派生した研究分野であり、データ分析で用いられたさまざまなアプローチや要素技術を応用し、発展した分析手法です。
データマイニングとは、構造化されたデータベースから情報を抽出し、自動的に傾向やパターンを発見する分析手法です。
顧客の購買行動など、データを解析することにより、商品の購入率の予測や商品の分類、商品と顧客の関連データ発掘などに用いられます。
テキストマイニングの種類
テキストマイニングの種類として、主に「探索的データ解析」「文書分類」が挙げられます。
探索的データ解析
探索的データ解析とは、未知の情報を発見したり、現在正確な回答がない質問への回答を探す解析プロセスです。
多くの場合は形態素分析により、テキストを単語やフレーズに分解し、出現頻度や関連性、時系列の変化など様々な視点で各分析が行われます。
文書分類
文書分類とは、テキストデータをその内容に基づいて、1つ以上に分類することです。
これを用いて、あらかじめ定義されたテキストデータ内から、新しい傾向やパターンを分析・発見し、さまざまな使用目的に合わせて利用されます。
たとえば、各国の産物の分布を分析し比較することで、それぞれの国の輸出傾向の傾向を分析することに用いられます。
テキストマイニングの活用法
画像出典:pixabay
大量のテキストデータから有益な情報を抽出するテキストマイニングの活用法を紹介します。
- SNS分析
- アンケートの分析
- 株式市場の予測
SNSや口コミサイトの投稿から、商品購入者や購入を考えている人のリアルな声を集め、ユーザーの属性に応じた効果的なアプローチが可能になります。また、自社ブランドがどのように受け止められているかを調査したり、競合調査を実施する場合にも役立ちます。
従来では、選択肢の中から答えを選択してもらう方式でしたが、テキストマイニングにより、自由回答欄に書かれた文章もデータ分析をすることが可能になり、より詳細な情報を分析することができます。
新聞や雑誌などのテキストデータから、株式市場変動との関係性をデータ分析・予測をおこなう研究も進められています。
テキストマイニング活用事例
テキストマイニングが実際に活用されている事例をご紹介します。
文章解析サービス「ITAS」
「ITAS」は、株式会社インサイトテックが開発した、文章解析ツールです。お客さんの声のテキストデータを解析し、意見性のあるフレーズを抽出する「意見タグAI」、類似する意見フレーズを束ね、全体を可視化する「可視化AI」、テキストデータから読み取れる発言者の感情を分類する「感情分類AI」の3種類のAIを用いて、企業の課題を抽出し課題解決を促します。
参考事例:https://ledge.ai/theai-2nd-insight-tech/
マーケットニュースから為替相場動向を予測
トレイダーズホールディングス株式会社が開発した「テキストマイニングAIストラテジー」は、膨大なマーケット情報から導き出した市場心理指数を利用し、予測モデルを構築することで将来の為替相場動向を予測します。
参考事例:https://ledge.ai/2019-02-19-20595560245c6bda0360edc/
自分専用のアロマが作れるサービス「CODE Meee ONE」
「CODE Meee ONE」は、株式会社コードミーが開発した、SNS投稿からテキストマイニングでキーワードを抽出し、自分専用のアロマが作れるサービスです。ツイッター投稿から知的好奇心・誠実性・外向性といった性格要素と、怒り・不安・成長意欲などのキーワードを抽出し、投稿のクセなどから深層心理を突き止め、香りに反映します。
参考事例:https://ledge.ai/code-meee-one/
テキストマイニングおすすめツール4選【無料あり】
画像出典:pixabay
無料で利用できるテキストマイニングツールをいくつかご紹介します。
テキストマイニングツール by ユーザーローカル
画像出典:ユーザーローカル
「テキストマイニングツール」 は、ダウンロード不要でブラウザ上から使えるツールです。単語の頻出度や、出現パターンの似た単語を線で結んだ「共起キーワード」、出現傾向の似た単語を樹形図で示した「階層的クラスタリング」といったテキストマイニングの基本機能を手軽に利用できます。
KH Coder
画像出典:KH Coder
「KH Coder」では、Windows版のソフトウェアに加え、必要に応じて機能の追加などもできるソースコードも公開されています。Macでは、ソースコードから起動するか、有償サポートで提供されている自動設定ソフトウェアを使うことで利用可能です。
統計ソフトR
画像出典:R Foundation
「統計ソフトR」では、Windows版、Mac版、Linux版が公開されています。コンソール画面からプログラムを入力することで、テキストを解析します。
有料ツールならより詳細な解析もできる!
無料のデータマイニングツールを使っていて、機能面で物足りなさを感じた場合には、有料のツールを導入する選択もよいでしょう。
参考までに1例だけ紹介します。
■ Text Mining Studio(テキストマイニングスタジオ)
価格:要問い合わせ
単語や係り受けごとの分析などの機能に加え、年齢をもとに 「年代」 という新たな属性を作成するなど、既存の属性から新たな属性を作り出したり、文章を指定のクラスタに分類したりできます。さらに、各クラスタの属性分布や単語分布、代表的な単語などを抽出するといった詳細な分析も可能です。
分析結果はビジュアルでの表示に加え、CSVなどで書き出すことも可能です。
excel(エクセル)でテキストマイニングする方法
画像出典:pixabay
使い慣れたソフトでテキストマイニングを実施したいなら、Excelを使う選択もあります。具体的な手順を以下にご紹介します。
Excelを使ってテキストマイニングを実施する場合、あらかじめテキストを単語レベルに分解する必要があります。
この作業には、「MeCab」や「Janome」などの解析エンジンを利用できます。
その後、単語の出現頻度などをExcel関数を使って分析します。
テキストマイニングで使うExcel関数とは?
テキストマイニングでは、下記の関数が役に立ちます。
単語の出現回数を集計する場合などに使用。
特定の範囲の単語の個数を集計する場合などにCOUNTIF関数とあわせて使用。
指定したセルの値を表示できる関数。SUM関数とあわせて使うことで、指定したセルからINDEX関数で指定した範囲までの合計値を求める場合などに使用。
テキストマイニングは日本語には不向き?
大量の文章から有益な情報を得るためには、非常に効果的なテキストマイニングですが、万能というわけではありません。
日本語の場合、同じ意味を表す言葉に多数のバリエーションがあったり、逆に同じ単語が複数の意味を持ったりする場合が多いため、英語に比べて分析する難易度が高い傾向があります。
しかし、日本語では役に立たないわけではなく、辞書のアップデートによりある程度の対応が可能であり、十分な効果を期待できると言えます。
個人がSNSで情報発信をすることが当たり前になった今、ネット上に集まるユーザーの本音は、企業にとって非常に重要なデータです。テキストマイニングは、それらの情報を収集する上で重要な技術となっています。