音声認識とは|基礎知識・仕組み・現在の事例を解説

このエントリーをはてなブックマークに追加

ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI(人工知能)の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。

音声認識とは?AlexaやSiriに搭載された技術の基礎知識

Photo by Kristin Baldeschwiler on Pixabay
音声認識とは、コンピュータにより音声データをテキストデータに変換する技術です。人間が言葉をそのまま理解するのに対し、コンピュータは、音響モデルや言語モデルを用いて音声を解析し、認識します。

スマートフォンに標準搭載されるSiriなどの音声認識サービスや、AmazonやGoogle、LINEなどが主に手がけているスマートスピーカーの台頭により、音声認識技術の利用は拡大しています。

音声認識の仕組み


Photo by geralt on Pixabay
音声認識の技術は、具体的に「音響分析」「音響モデル」「発音辞書」「言語モデル」の4つの過程を経て、コンピュータが認識します。

音響分析

音響分析では、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさままな特徴量を抽出し、音響モデルで扱いやすい(コンピュータが認識しやすい)データに変換します。

Ledge.ai編集部にて作成

音響モデル

音響モデルでは、音響モデル分析により抽出された特徴量が、どの記号(音素や単語)にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算します。

たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせます。

発音辞書

音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから音の組み合わせをピックアップし、「単語」として認識させるのが発音辞書です。

たとえば、
・「A-R-I-G-A-T-O-U」を「A-RI-GA-TO-U」(ありがとう)
・「G-O-M-E-N-N-E」を「GO-ME-N-NE」(ごめんね)
のように、音の組み合わせを「単語化」し、音声モデルと言語モデルを結びつける役割をします。

言語モデル

言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立てます。あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化します。

言語モデルで主に利用されるモデルが「隠れマルコフモデル」です。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義しています。
Ledge.ai編集部にて作成
上図のように、膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化します。

ディープラーニングで音声認識はどう変わったのか

ディープラーニングとは、データから自動で特徴を抽出し分類や予測を行う技術であり、機械学習の一種です。

ディープラーニングの技術を用いた音声認識では、「音響モデル」から「言語モデル」までのプロセスが1つのニューラルネットワークモデルで実装されています。

たとえば、言語モデルに「私は学校へ」と入力すると、次に出現する可能性が高い「行く」「行かない」などの単語を自動で予測します。

ディープラーニングの登場によって膨大な情報を処理できるようになり、音声認識の著しい向上につながりました。

音声認識と自然言語処理

Photo on max pixel

音声認識とは、音声情報と言語情報を組み合わせることで、音声を文字に変換する技術です。

故に、音声からテキストを生成するところまでの機能であり、テキストから意味を抽出し、目的に応じた作業を行う部分までは含まれていません。

この機能は「自然言語処理」により担われています。

自然言語処理とは、人間の用いるような自然文を対象とした、言葉や文章のもつ意味を認識、処理する技術です。

音声認識を活用した事例

Photo on max pixel

音声認識技術を活用した企業導入事例をピックアップしました。ご紹介します。

試乗中の案内業務を自然対話AIで行うことで新たな顧客体験を創出

株式会社電通と株式会社電通デジタルは、日本語AIの自然対話サービス「Kiku-Hana(キクハナ)」と株式会社ナビタイムジャパンのカーナビアプリを組み合わせた独自システムを開発しました。これまで営業スタッフがお客様と同乗して行っていた試乗ルート案内や車のセールスポイント紹介などの試乗中の会話を、車載スマホに入ったAIが代わりに行うことで、お客様だけで試乗を楽しめるように。また、試乗に関するAIからの質問に対するお客様の回答、およびお客様からの質問のみをデータ化し、営業スタッフがその後の商談等で活用できるようなシステムを構築し、新たな顧客体験が創出され、営業業務も効率化しました。
参考事例:https://ledge-eg.com/cases/aifuture

AIを用いて顧客の満足度を会話から定量化し効率的な応対スキル向上を実現

富士通株式会社では声の高さやその変化を分析、また複数の言葉をまたぐ音声データ中における特有の変化を捉えることにより、声の明るさを高精度に定量化しました。声の「明るさ」と「満足感」には高い相関関係があるため、定量化した声の明るさから、会話中の満足感を定量化することが可能に。これと応対評価の結果を合わせて機械学習を行い、満足や不満の判定閾値を学習することで、自動的に会話中の満足不満箇所を特定しました。人が判定した結果と比較して、約70%の精度の推定率を実現しました。
参考事例:https://ledge-eg.com/cases/fujitsuin2


これらの事例はAI活用事例検索プラットフォーム「e.g.(イージー)」からもご覧いただけます。

音声認識が使用されているサービス

音声認識はさまざまなサービスに導入されています。

会議の議事録や営業日報などの記録を効率化する「ProVoXT」

ビジネスシーンで会議の議事録や営業日報を記録する際、録音音声を何度も聞き返して文字起こしするには多大な時間と労力を要します。

こうした手間を解決してくれるのがクラウド型議事録作成支援サービス「ProVoXT」です。
録音した音声をクラウド上へアップロードすることでAI(人工知能)が音声認識を開始し、自動的に文字起こしが行われるため、通常であれば数時間かかる作業を十数分に短縮します。

参照記事:茨城県庁、AI議事録作成サービスを導入。何度も聞き返す文字起こし作業なくなる

英語のスピーキング評価を自動で行えるAI 「CHIVOX」

CHIVOXは、アプリに向かって英語を話すことで、正しい発音かどうかをチェックしてくれるサービスです。中国が開発した英語スピーキング評価AI技術で、既に世界132ヶ国で導入されており、日本でも利用されています。

米式/英式英語の発音基準との比較のほか、発話が流暢かどうか、なども評価できます。また、チャイルドモード、ノーマルモード、ネイティブモードという3種類のモードを持っていることで、幅広い英語力に対応できる強みを持っています。

参照記事:機械翻訳が発展する未来に英語学習は必要か?日本の英語教育の現在地

音声認識で感情と元気度を解析するAI「Empath」

Empathは、音声の物理的特徴量を解析することで、言語に依存せず、「喜び」
「平常」「怒り」「悲しみ」「元気度」を解析するAIです。東日本大震災後、ボランティアのメンタルヘルスケアのために生まれ、アラブ首長国連邦内務省に正式に採用された実績を持ちます。

現在では、コールセンターのシステムとして、顧客とオペレータの感情を可視化するほか、ロボットへ搭載し、人との自然なコミュニケーションの研究にも導入されています。

参照記事:物理的特徴量を捉える音声感情解析AI「Empath」の実力

クラウド上のコールセンター「Amazon Connect」

「Amazon Connect」はクラウド上にコールセンターを作成するサービスです。自動音声応答やその文言編集、通話の自動録音などの機能を備えています。

音声認識技術は音声からテキストへの文字起こしや、多言語翻訳に活用されています。

参照記事:コールセンター業界に現れた黒船「Amazon Connect」が生む新しい電話体験


ほかにも多くのサービスに音声認識は使用されています。

音声認識の普及と課題

Photo by mohamed hassan on Pixhere

AppleのiOSに搭載されている「Siri」やAndroid OSの「Googleアシスタント」など音声認識サービスは生活にも普及しています。リリースされた当初と比べ、音声認識の技術も格段に上がり、今では検索エンジン上でも欠かせない存在となりました。

一方、こうした音声認識サービスの日本での普及率はあまり高くありません。2018年4月iProspectが行った調査では、「過去6か月以内にスマホの音声認識機能を使用したか」という問いに対し、「使用した」人の平均62%、インド(82%)、中国(77%)と半数を超えるなか、日本は40%と諸外国と比べて低い普及率でした。

音声認識は、ビジネスや日常生活で大きく活用されています。私たちは日々進化する技術革新を観察し、AI(人工知能)を積極的に受け入れていくことが必要なのではないでしょうか。