物理的特徴量を捉える音声感情解析AI「Empath」の実力

このエントリーをはてなブックマークに追加

言葉を理解し、対話形式による音声操作が可能なGoogle HomeやAlexaを始めとしたスマートスピーカーが登場するなど、音声認識分野におけるAIの活躍は目を離せない。

しかし、AIができることは音声認識だけにとどまらない。人が声のトーンから相手の気分や感情を判断するように、AIに音声から感情を解析させる研究も進んでいる。

「喜び・平常・怒り・悲しみ」4つの感情と元気度を解析するEmpath

Empathは、音声の物理的特徴量を解析することで、言語に依存せず、

  • 喜び
  • 平常
  • 怒り
  • 悲しみ

の4つの感情と元気度を解析するAIだ。数万人の音声データをもとに解析している。

Empathは東日本大震災後、ボランティアのメンタルヘルスケアのために生まれた。当時、利用者の気分の落ち込みを検知し、早めにカウンセリングを受けてもらうなどの対応によりボランティアが辞めるのを防いだ。

最近では、オペレーター応対品質のばらつきやオペレーターの離職率の高さを改善するため、コールセンターへの導入にも期待が寄せられる。

言語に依存しないため、日本語に限らずさまざまな国の言語に対応可能なEmpathは、アラブ首長国連邦内務省に正式に採用された実績を持つ。Empathをもとに開発者が手軽に利用できるよう作られた「WEB Empath API」は、世界40か国500社以上で使用されている。

APIで4つの感情と元気度を解析

今回は、世界各地で利用されているWEB Empath APIを試してみた。

解析の指標は、

  • 平常(calm)
  • 怒り(anger)
  • 喜び(joy)
  • 悲しみ(sorrow)
  • 元気度(energy)

の5種類。どの指標も値は0〜50までの範囲で、値が大きいほどその感情や元気度が大きいことを示す。

はじめに、以下4つのセリフを解析した。なお、声は同じ女性のものである。

  • 「よっしゃー」
  • 「おはよう」
  • 「最低」
  • 「もう帰っちゃうの」

同じ女性の異なるセリフを解析した。

解析結果はこちら。

「よっしゃー」
{"error":0,"calm":10,"anger":28,"joy":2,"sorrow":8,"energy":22}

「おはよう」
{"error":0,"calm":20,"anger":7,"joy":22,"sorrow":0,"energy":29}

「最低」
{"error":0,"calm":7,"anger":19,"joy":19,"sorrow":3,"energy":35}

「もう帰っちゃうの」
{"error":0,"calm":10,"anger":23,"joy":10,"sorrow":6,"energy":27}

※WEB Empath APIでは解析可能な音声データには制限がある。詳しくは公式サイト参照

以下は、グラフで各指標の数値を可視化したものだ。

縦軸が指標の数値、横軸が各指標を表す。

グラフのばらつきからわかるように、同じ女性の声でも、セリフが異なれば感情や元気度の値は変化する。

「よっしゃー」の怒りの値が28と、「最低」や「もう帰っちゃうの」といった怒りの値が高そうなセリフよりも高い。しかし最も当てはまりそうな感情である喜びの値は2である。調査した4つのセリフのなかで一番低く、言葉から受け取る意味合いとは真逆の結果になっていた。

言葉の意味には依存せず、物理的特徴から解析をしているからこそ、言葉から受け取る意味合いとは真逆の結果も起こり得るのかもしれない。

「最低」では喜びの値と怒りの値が同じになっている。本気で「最低」と言っている場合は怒りの値が高くなり喜びの値は低くなると思うが、会話の掛け合いの中でふざけて言う「最低」ならば怒りの値が低く喜びの値が高くなる可能性もあるので、同じ値となった可能性がある。

続いて、異なる女性の声にした同じセリフを解析した。

  • 「おはよう(1)」:低く落ち着いた声
  • 「おはよう(2)」:元気な声
  • 「おはよう(3)」:(1)よりは高い落ち着いた声
  • 「おはよう(4)」:おとなしい声

解析結果はこちら。

「おはよう(1)」
{"error":0,"calm":20,"anger":7,"joy":22,"sorrow":0,"energy":29}

「おはよう(2)」
{"error":0,"calm":18,"anger":7,"joy":23,"sorrow":0,"energy":30}

「おはよう(3)」
{"error":0,"calm":9,"anger":32,"joy":3,"sorrow":4,"energy":31}

「おはよう(4)」
{"error":0,"calm":26,"anger":5,"joy":15,"sorrow":2,"energy":18}

セリフは同じだが、グラフの各指標の数値は異なるため、解析は言語に依存していないことが改めてわかる。

おとなしい声の「おはよう(4)」は元気度の数値が18だ。ほかの声の元気度より値は小さく、声が小さいと元気がないと感じる人の感覚とも一致した結果となった。

「おはよう(3)」だけ他の場合と異なり、怒りがの値が喜びの値よりも高く、人の感覚とは異なる結果となった。声の特徴によっては、感情を正しく解析できていない場合もあるかもしれない。

“声だけ”でも感情認識できる強みを活かし活躍するEmpath

Empathの音声感情解析技術は、

  • じぶん予報
  • 音声を毎日入力することで、気分の変動をセルフチェックし、セルフケアの手助けを行う。

  • スマートコールセンター・システム
  • 顧客の感情とオペレータの感情の可視化により、成約率の向上とオペレータのストレス軽減を目指す。

  • ロボットへの搭載
  • ロボットに音声解析技術を搭載することで、人とのより自然なコミュニケーションを目指す。

など、すで多くの導入実績がある。

“声だけ”で感情がわかるという特性から、コールセンターのような声の情報のみしか得られない場面でも活用できるのが強みだ。

今回APIを実際に試した結果、同じ「おはよう」というセリフでも、4つの声質中1つだけ怒りの値が高かったように、声の特徴によっては感情を正しく解析できていない状況もあった。

自身のビジネスに活用できるかは否かは、実際にAPIを試して判断していただきたい。

>> WEB Empath API