GoogleやAmazon、Appleといった名だたる企業のスマートスピーカーのコア技術である音声認識AI。
ヒトはあらゆる場面で音声というツールを利用しますが、その音声についてまわるのが、“感情” です。
音声に表れる感情を解析することで、
- コールセンターにおけるクレームの可視化
- ロボットによる感情に配慮した受け答え
- 面談やミーティングでの査定の判断材料
といったことを実現しようとしているのが、スワローインキュベートが提供する音声による感情認識AI。
今回の記事では、感情認識AIがどのように音声を解析してくれるのか、実際にAPIを利用して紹介していきます。
音声による感情認識AIって?
今回のAIで利用されているのは、音声による感情認識技術です。
感情認識技術は大きく、
- 言語解析型
- 音響解析型
という2つにわけられます。
言語解析型では、音声のなかの感情を表す言葉、たとえば「悲しい」「嬉しい」といった単語から感情の判定をおこないます。
しかし、音声のなかに複数の感情を表す言葉や、固有名詞を多く含んでいると、正確な判定が難しいというのが言語解析型の特徴。
たとえば、「なんて日だ!」という単語は、喜び、怒り、両方の意味で理解できますよね。このようなケースに対して、言語解析型でのアプローチでは正しく感情を判定できません。
一方、今回の感情認識AIに採用されているは音響解析型。
音響解析型であれば、言語解析型が持つ問題に左右されず、音声自体が持つ特徴量から感情を判定してくれます。
今回紹介するスワローインキュベートが提供する感情認識AIは、
- 怒り
- 喜び
- 平静
の3つを可視化してくれるそう。
さらに今回の感情認識には、パナソニック社の特許技術が使われています。
株式会社スワローインキュベートは、パナソニック社の特許を活用した「音声による感情認識」技術を開発。パナソニック株式会社所有の知的財産の活用の促進を目的として、パナソニック所有知的財産権の一部のライセンス及びサブライセンスの許諾を受けて活動しています。
音声による感情認識技術の実用化も進むなか、その実力、気になりますよね。
さっそくAPIを使っていきます。
AIによる音声解析で、怒り・喜び・平静を正確に判定。ヒトの感情コントロールも可能に?
今回解析させるのは、
- 本を朗読している平静の音声
- 楽しく団欒している喜びの音声
- 国会での討論の怒りの音声
の3つです。
まずはAPIを使ってそれぞれの音声を解析した結果がこちらです。
0.0 – 5.0 [s]: result:calm:rough > 0.4 soft > 0.067
5.0 – 10.0 [s]: result:calm:rough > 0.143 soft > 0.143
10.0 – 15.0 [s]: result:calm:rough > 0.297 soft > 0.0
15.0 – 20.0 [s]: result:calm:rough > 0.316 soft > 0.053
20.0 – 25.0 [s]: result:calm:rough > 0.235 soft > 0.059
0.0 – 5.0 [s]: result:joy:rough > 0.727 soft > 0.758
5.0 – 10.0 [s]: result:joy:rough > 0.632 soft > 0.737
10.0 – 15.0 [s]: result:joy:rough > 0.793 soft > 0.759
15.0 – 20.0 [s]: result:joy:rough > 0.571 soft > 1.0
20.0 – 25.0 [s]: result:joy:rough > 1.0 soft > 0.667
0.0 – 5.0 [s]: result:anger:rough > 0.545 soft > 0.227
5.0 – 10.0 [s]: result:anger:rough > 0.548 soft > 0.484
10.0 – 15.0 [s]: result:anger:rough > 0.708 soft > 0.417
15.0 – 20.0 [s]: result:anger:rough > 0.636 soft > 0.394
20.0 – 24.0 [s]: result:anger:rough > 0.655 soft > 0.276
音声は5秒ごとに解析され、
- Rough値(声帯の力み、感情のこもり具合)
- Soft(声の柔らかさ、トーン)
という2つの値で感情の結果が決まります。
うえの数値だけでは少しわかりづらいので、Rough値とSoft値それぞれをグラフで可視化したのがこちら。
Rough値
Soft値
RoughとSoftの2値による感情の解釈の例はこちら。
解析させた結果の数値をみてみると、
- 平静のときはRough値、Soft値ともに低い
- 喜びのときは両方高い
- 怒りのときはSoft値が低い
という結果になっています。数値と感情の関係性はかなりシンプルですが、正確に解析して感情値をだしてくれています。
今回のAIは、感情判定の際に音声の特徴量を指標とする、音響解析型。なので少しの調整のみで、言語にとらわれない汎用的な音声認識AIとしても活用できそうです。
ただし、ヒトの感情は怒り・喜び・平静だけではありません。これらの数値からどのように、
- 悲しみ
- 驚き
- 恐れ
といった、ほか複数の感情を判定していくのか非常に興味深い一方で、変数が増えることで判定もさらに難しくなります。
そのあたりは今後の音声認識AIの課題となってきそうですが、仮にすべての感情値がAIで認識可能になったとき、ヒトとチャットボット、ロボットとのコミュニケーションはより一層スムーズになり、ヒトの感情や行動も、ある程度コントロール可能になってくるのではないでしょうか。
AIが感情を判定できることで、今後なにが変わるのか?
今回のような音声による感情認識AIがあれば、
- ユーザーとの通話を解析して、ストレス箇所の分析
- 面談中の感情を解析して、パワハラ防止、査定への活用
- ヒトの感情を理解するチャットボット、ロボットの開発
といった、あらゆる場面での活用が期待できます。
さらにスワローインキュベートが提供する感情認識AIは、
- リアルタイム解析
- 教師データ不要
- ラズパイでも実行可能
- 他技術との組み合わせ
というのも、大きな特徴だそう。
教師データ不要で、低スペックのマシンで動くAI、非常に魅力的です。
音声によるAIソリューションを考えている方は、ぜひ感情認識AIを利用してみてはいかがでしょうか。