東芝が世界初のAI技術を開発、家電だけで音声・話者を同時に認識

このエントリーをはてなブックマークに追加

画像は東芝研究開発センターより編集部キャプチャー

話しかけるだけで家電を操作できるようになってきた。さらに、誰が音声で操作をしたのか識別し、その話者に合わせて機器の動きを変える機能も出てきている。

株式会社東芝は2月20日、キーワード検出と話者認識を同時に処理するAI技術を開発したと発表。実はこの技術、東芝が世界で初めて開発したのだ。

利用者を認識し、その利用者に合わせて機器が動作する

ポイントは「エッジデバイス上だけ」で同時処理できること

冒頭に記載のとおり、これまでも音声で家電を操作したら、話しかけた人に合わせて機器が動作する仕組みはあった。だが、そのためにはネットワークへの接続が必要だった。なぜなら、動作に必要な「キーワード検出」と誰が話したのか識別する「話者認識」を両立させるには、膨大な計算が必要だったからだ。

今回、東芝が開発したのは、「ネットワークに接続していなくてもエッジデバイス上で」キーワード検出と話者認識を同時に処理するAI技術だ。音声キーワード検出や話者認識を家電製品で利用するにはネット接続などが必要だったが、東芝が開発したAI技術なら、ネット非接続でも利用できるのでより使い勝手が良くなると予想される。

このAIの特徴は大きく分けてふたつある。

話者認識のための音声処理時間を大幅に削減

中間出力を話者登録や話者認識に活用する

まず、キーワード検出で用いる情報の活用だ。音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ、音声を処理する。その際のニューラルネットワークの中間出力を使って話者登録および話者認識をするそうだ。

さらに、中間出力を使うことで、話者認識の差異にも周辺の雑音の影響を抑えられる。くわえて、話者認識のための音声処理の時間を大幅に削減可能。限られた機能上でも高速な動作を見込める。

話者登録は「3回の発話」で完了

少ない発話で登録が可能に

もうひとつは、ニューラルネットワークのデータ拡張手法の活用だ。データ拡張手法とは、少ないデータ(発話)で学習する手法のひとつだ。ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成できる。

話者を識別するには、AIに話者を学習させる必要があるものの、この手法を用いることで発話数が少なくても話者を学習できる。つまり、話者登録時の必要話数が少なくなるそうだ。リリースによれば、3回の発話で完了するとのこと。

話者100名に対する識別精度は89%、家庭利用なら実用性アリ

東芝では、データ拡張手法を使った話者登録で比較検証をしている。100名に対して各話者3回の発話を登録に用いる条件で検証したところ、識別精度は89%という結果を得られた。話者認識において一般的な手法(i-vector)では精度が71%だったそうなので、話者登録ではデータ拡張手法のほうが高精度なのだと言えるだろう。

また、実際に家電などのエッジデバイスを操作する場面においては、話者登録は5~10名程度と想定されているため、89%という精度でも十分に実用性能があると考えている。もちろん、サーバーで計算量や処理速度を計測したところ、いずれも組み込みシステムでも問題なく動作するそうだ。


実際に使ってみると便利さがわかる音声操作。筆者自身も「音声操作をする必要性ってどれだけあるの」と思っていたが、いざ使ってみるとリモコンをポチポチすることもなくなったので、リモコンが見つからなくても焦らなくなった。すごく便利。

ネットワークに接続しなくても使える、というのも、若い世代や上の世代など、ネット環境が不十分な家庭で輝きそうなAIだ。とはいえ、音声操作が快適だと感じるには、使ってみないと正直わからないことだらけ。

それこそエアコンであれば、「AIによって『あなたに最適な温度』を話しかけるだけで設定できます!」みたいなうたい文句で販売しても効果はそこまでなさそうな気がする。なので、いっそのことリモコンをなくしてみる、などの挑戦的な製品を出し、強引に声で操作させるくらいの“攻め”も必要かもしれない(賛否両論ありそうだけど)。