音声認識エンジンはどう選ぶ?主要な4つを比較検証してみた

このエントリーをはてなブックマークに追加

『音声認識エンジン』と聞くとなかなか身近に感じにくいかもしれませんが、お持ちのデバイスに導入されているSiriやAlexa、Cortanaなどにも使われているエンジンで、人が話した音声をテキストに変換する機能を持ちます。この機能を利用した音声認識チャットボット が昨今、注目を集めています。

今回レッジでは、開発前に性能検討すべき『音声認識エンジン』について、調査検証を行いました。

チャットボットの利用価値

昨今利用シーンの増えている「チャットボット」。LINE@を利用した企業やブランドのプロモーションやカスタマーサポート、またコストカットを目的とした企業の総務/受付の役割を担うお問い合わせ窓口など、活用シーンが急増しています。

現在は利用ユーザーの手持ちのデバイスで利用するテキストベースのチャットボットが主流ですが、今後はサービス提供側がデバイスを用意しコロナ対策を意識したサービスの無人化や非接触を意識して「音声認識チャットボット」の利用シーンも増えてくると考えられます。

関連記事:新型コロナウイルスの影響でチャットボット利用が急増

音声認識チャットボットを利用するメリット

音声認識のチャットボットを活用するメリットとしては、

  • 無機質感が少なく、テキストより有人サービスに近い感覚を得られる
  • 情報の伝達が簡便(文字を打ち込む必要がない)
  • 音声情報のため電話などの対応も可能
  • 非接触である

などが挙げられます。一方で、テキストベースのチャットボットより検討が重要な技術になります。なぜなら、音声認識チャットボットを構成する音声認識エンジンが未だ発展途上の技術であるため、認識の正答率がエンジンによってかなり異なってくるためです。

パッケージ開発とスクラッチ開発の違い

ところで、音声認識チャットボットに限らず、システム開発/導入の際にはパッケージでの開発とスクラッチでの開発それぞれを選択する事ができます。
パッケージ開発では、ある程度プランや導入手順がマニュアル化されているため、初期費用が安く期間も短く導入が可能です。しかし、ライセンス料などのランニングコストがかさんだり、要望に合わせたカスタマイズや他システムとの連携が難しい場合が多いです。

一方、スクラッチ開発では、初期費用がかさみますが、自社の業務に最適なシステムをオーダーメイドで構築して運用することができます。特殊な処理や外部システムとの連携が必要であったり、コンプライアンスやセキュリティに注意する必要があったりなどの高い要件に対しても柔軟に対応可能です。ここからは、スクラッチ開発を選択した場合の、主要な音声認識エンジンについてご紹介します。

音声認識チャットボットの仕組み

音声認識のチャットボットを開発するには、

  • 音声認識エンジン:音声情報を認識しテキスト化を行う
  • チャットボットエンジン:テキスト情報に対応する返答を作成する
  • 音声合成エンジン:返答を音声にする

の3つのエンジンを用意する必要があります。

音声認識エンジンの仕組みは、音声認識エンジンによって人から発せられた音声情報を認識し、チャットボットエンジンが認識した情報に対し、あらかじめルール化されたされた返答を用意もしくは機械学習によって割り出された返答を推論し、最後に、音声合成エンジンが返答を音声化する流れとなっています。

それぞれエンジンの性能はチャットボットにとって必要な要素ですが、エンジンによって性能に差が出るのは『音声認識エンジン』です。

Siriに「すみません、よくわかりません」と返答された経験はないでしょうか。(もちろん質問内容がおかしい場合もありますが)音声認識チャットボットが機能しないケースは、第一段階の音声認識エンジンがうまく音声を認識できない場合がほとんどです。

音声認識エンジンはまだまだ発展途上の技術であるため、実際のシステムやサービスへ活用する際には、エンジンの性能の検討と調整が必要です。

主要な音声認識エンジンの調査・検証結果

レッジでは発展途上の技術を扱う際には、より良い選択が重要であると考えているため、開発前に、フィジビリティ調査を実施しております。ここからは、レッジで調査・検証した主要な音声認識エンジンの概要についてご紹介します。

  • Google Cloud PlatformのSpeech-to-Text API
  • MicrosoftのSpeech Services
  • IBMのWatson Speech to Text
  • アドバンスト・メディアのAmiVoice

日本語での音声認識を行う場合の検討結果概要です。それぞれ使用したエンジンタイプは汎用型になります。

GCPMicrosoftIBMアドバンスト・メディア
リアルタイム認識
正答率
コスト感※1
カスタマイズ性※2

※1利用頻度によって左右されます。
※2専門用語の学習が可能です。日常会話で使われない言葉に対しても認識する設定ができます。

Google Cloud PlatformのSpeech-to-Text API

正答率が最も高く、コスト感も低く最もメリットの高い結果となりました。他のエンジンに比べ、特定文字の認識の学習について幅が少なく、カスタマイズ性は低いものの、学習なしに専門用語の認識率も高いため、カスタマイズ性の低さはデメリットになりにくいです。また、一文ごとの音声情報を解析するのではなく、前後の文章を含む複数行を同時に解析するため、前後の文章を考慮した結果となり、同音異義語の間違いが少ないといった特徴が見られました。

MicrosoftのSpeech Services

正答率は高いうえに、特定文字認識に対する追加学習をカスタマイズできるメリットがあります。カタカナやアルファベットの認識がGCPより弱いため、利用シーンに合わせた特定文字や専門用語の場合は追加学習が必要と考えられます。追加学習個数毎に料金が加算されるため費用感が気になるところです。

IBMのWatson Speech to Text

正答率は低めであるものの、カスタマイズが可能のため、特定文字認識の学習によっては正答率の向上が見込めます。エンジニア視点でありますが、GCPやMSよりハンドリングしやすいメリットがありました。

アドバンスト・メディアのAmiVoice

日本語の音声認識でトップシェアを誇るアドバンスト・メディアの音声認識エンジンAmiVoiceですが、通常盤の正答率はそこまで高くないものの、各業界用に専門用語の学習がパッケージされた音声認識エンジンを用意しています。

音声認識エンジン検証結果の総評

比較検証を行うと各社それぞれ特色が見受けられました。たとえば、コスト感を抑えた開発を行いたい場合には、GCPのSpeech-to-Text APIの活用が、常用では使用されない医療業界や教育業界などに向けて専門用語の多いチャットボットを開発したい場合にはMicrosoftのSpeech Services、といったような検討が考えられます。

このように、実際にチャットボットを開発するときには、エンジンの性能と合わせて利用シーンから考え、目的に合わせてどのエンジンが最適か検討の実施が重要となってきます。

音声認識チャットボットの想定される利用シーン

仮にホテルのコンシェルジュの代わりに音声認識チャットボットを活用するケースを考えてみましょう。設置されたスピーカーやタブレットからアクセスし、Web環境上で音声認識チャットボットを作動させるとします。ホテルのロビーには音楽が流れており、多国籍のお客様が利用します。この際、音声認識チャットボットの作成にはさらに以下のようなポイントをクリアすることが必要と考えられます。

  • 外部環境によるノイズの影響
  • 多言語対応と日本語以外の言語の認識精度
  • リアルタイム認識
  • 他サービスとの連携(例えばマップを使う/タクシーを呼ぶ/予約を行う)

利用シーンを想像し検討項目を洗い出すことで、特有の用途やマストポイントが見えてきます。利用シーンに合わせて比較検討を行うことによって、最適な音声認識チャットボットの選択が可能となるのです。

関連記事:学ぼう、チャットボットの基本。導入時の課題や継続利用のポイントまとめ

最後に~レッジのAI開発・コンサルティング~

レッジには、システム設計開発を担うエンジニアやモデル開発を行うデータサイエンティストだけでなく、ITコンサルタントやディレクターのプロフェッショナルもそろっております。

システム開発の際には、用いる技術のほかにも、他システムとの連動性、セキュリティ項目なども検討いたします。最適な技術選択・システム設計そして、ビジネスインパクトを重視したビジネスデザインも加味しコンサルティングを行います。サービスの関係するシステム開発の際には、UI/UXやロードマップの検討から行い、プロジェクト全体を通したサポートが可能です。

チャットボットの作成時でも、目的はコストカットや利用満足度など定めたうえで、効果の高い体験設計を行います。もし音声認識エンジン比較の詳細を知りたい場合や、チャットボットの制作にご興味ある場合は、ぜひレッジコーポレートサイトお問い合わせ窓口もしくはFacebookのメッセンジャーなどでお声がけください。

>>レッジのFacebookはこちら
>>レッジのTwitterはこちら