音声認識とは | 基本知識、仕組み、ディープラーニングとの関係、活用事例

このエントリーをはてなブックマークに追加

ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI(人工知能)の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。

音声認識とは?AlexaやSiriに搭載された技術の基礎知識

Photo by Kristin Baldeschwiler on Pixabay
音声認識とは、コンピュータにより音声データをテキストデータに変換する技術です。人間が言葉をそのまま理解するのに対し、コンピュータは、音響モデルや言語モデルを用いて音声を解析し、認識します。

スマートフォンに標準搭載されるSiriなどの音声認識サービスや、AmazonやGoogle、LINEなどが主に手がけているスマートスピーカーの台頭により、音声認識技術の利用は拡大しています。

音声認識の仕組み


Photo by geralt on Pixabay
音声認識の技術は、具体的に

  • 音響分析
  • 音響モデル
  • 発音辞書
  • 言語モデル

    の4つの過程を経て、コンピュータが認識します。

    音響分析

    音響分析では、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさままな特徴量を抽出し、音響モデルで扱いやすい(コンピュータが認識しやすい)データに変換します。

    Ledge.ai編集部にて作成

    音響モデル

    音響モデルでは、音響分析により抽出された特徴量が、どの記号(音素や単語)にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算します。

    たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせます。

    言語モデル

    言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立てます。あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化します。

    言語モデルで主に利用されるモデルが「隠れマルコフモデル」です。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義しています。
    Ledge.ai編集部にて作成
    上図のように、膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化します。

    発音辞書

    発音辞書では、音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから、音の組み合わせをピックアップし、「単語」として認識させます。

    たとえば、

    • 「A-R-I-G-A-T-O-U」を「A-RI-GA-TO-U」(ありがとう)
    • 「G-O-M-E-N-N-E」を「GO-ME-N-NE」(ごめんね)

    のように、音の組み合わせを「単語化」し、音声モデルと言語モデルを結びつける役割をします。

    ディープラーニングで音声認識はどう変わったのか

    ディープラーニングとは、データから自動で特徴を抽出し分類や予測を行う技術であり、機械学習の一種です。

    ディープラーニングの技術を用いた音声認識では、「音響モデル」から「言語モデル」までのプロセスが1つのニューラルネットワークモデルで実装されています。

    たとえば、言語モデルに「私は学校へ」と入力すると、次に出現する可能性が高い「行く」「行かない」などの単語を自動で予測します。

    ディープラーニングの登場によって膨大な情報を処理できるようになり、音声認識の著しい向上につながりました。

    ・ニューラルネットワーク
    ニューラルネットワークとは、脳の神経回路の一部を模した数理モデル、または、パーセプトロンを複数組み合わせたものの総称です。

    音声認識と自然言語処理

    Photo on max pixel

    音声認識とは、音声情報と言語情報を組み合わせることで、音声を文字に変換する技術です。

    故に、音声からテキストを生成するところまでの機能であり、テキストから意味を抽出し、目的に応じた作業を行う部分までは含まれていません。

    この機能は「自然言語処理」により担われています。

    自然言語処理とは、人間の用いるような自然文を対象とした、言葉や文章のもつ意味を認識、処理する技術です。

    音声認識を活用した事例

    Photo on max pixel

    音声認識技術を活用した企業導入事例を紹介します。

    車の試乗をより楽しく、効率化


    Kiku-Hana(キクハナ)」は、株式会社電通と株式会社電通デジタルが開発した、車の試乗を効率化する日本語AIの自然対話サービスです。これまで営業スタッフがお客様と同乗し、行っていたルート案内や車のセールスポイント紹介など、試乗中の会話をAIが代わりに行うことで、新たな顧客体験が創出され、営業業務も効率化しました。
    参考事例:https://ledge-eg.com/cases/aifuture

    AIを用いた顧客の満足度を可視化、応対スキル向上を実現


    富士通株式会社では、声の高さやその変化、また複数の言葉をまたぐ音声データの特有の変化を捉えることにより、会話中の満足感を定量化しました。これと応対評価の結果を合わせて、満足や不満の判定閾値を学習することで、自動的に会話中の満足不満箇所を特定しました。人が判定した結果と比較して、約70%の精度の推定率を実現しています。
    参考事例:https://ledge-eg.com/cases/fujitsuin2

    会議の議事録や営業日報などの記録を効率化する「ProVoXT」

    出典:https://prtimes.jp/main/html/rd/p/000000119.000020223.html
    ビジネスシーンで会議の議事録や営業日報を記録する際、録音音声を何度も聞き返して文字起こしするには多大な時間と労力を要します。

    こうした手間を解決してくれるのがクラウド型議事録作成支援サービス「ProVoXT」です。
    録音した音声をクラウド上へアップロードすることでAI(人工知能)が音声認識を開始し、自動的に文字起こしが行われるため、通常であれば数時間かかる作業を十数分に短縮します。

    参照記事:茨城県庁、AI議事録作成サービスを導入。何度も聞き返す文字起こし作業なくなる

    英語のスピーキング評価を自動で行えるAI 「CHIVOX」


    CHIVOXは、アプリに向かって英語を話すことで、正しい発音かどうかをチェックしてくれるサービスです。中国が開発した英語スピーキング評価AI技術で、既に世界132ヶ国で導入されており、日本でも利用されています。

    米式/英式英語の発音基準との比較のほか、発話が流暢かどうか、なども評価できます。また、チャイルドモード、ノーマルモード、ネイティブモードという3種類のモードを持っていることで、幅広い英語力に対応できる強みを持っています。

    参照記事:機械翻訳が発展する未来に英語学習は必要か?日本の英語教育の現在地

    音声認識で感情と元気度を解析するAI「Empath」


    Empathは、音声の物理的特徴量を解析することで、言語に依存せず、「喜び」
    「平常」「怒り」「悲しみ」「元気度」を解析するAIです。東日本大震災後、ボランティアのメンタルヘルスケアのために生まれ、アラブ首長国連邦内務省に正式に採用された実績を持ちます。

    現在では、コールセンターのシステムとして、顧客とオペレータの感情を可視化するほか、ロボットへ搭載し、人との自然なコミュニケーションの研究にも導入されています。

    参照記事:物理的特徴量を捉える音声感情解析AI「Empath」の実力

    クラウド上のコールセンター「Amazon Connect」

    出典:https://aws.amazon.com/jp/blogs/apn/aws-solution-space-expands-with-solutions-for-amazon-connect/
    「Amazon Connect」はクラウド上にコールセンターを作成するサービスです。自動音声応答やその文言編集、通話の自動録音などの機能を備えています。

    音声認識技術は音声からテキストへの文字起こしや、多言語翻訳に活用されています。

    参照記事:コールセンター業界に現れた黒船「Amazon Connect」が生む新しい電話体験


    これらの事例は、AI活用事例検索プラットフォーム「e.g.(イージー)」からもご覧いただけます。

    音声認識の普及と課題

    Photo by mohamed hassan on Pixhere

    Appleの「Siri」やAndroid OSの「Googleアシスタント」など、音声認識サービスは生活にも大きく普及しています。リリース当初と比べ、音声認識の技術は格段に上がり、現在では、検索エンジン上でも欠かせない存在となりました。

    一方、こうした音声認識サービスの日本での普及率は、あまり高くありません。2018年4月iProspectが行った調査では、「過去6か月以内にスマホの音声認識機能を使用したか」という問いに対し、「使用した」人の平均62%、インド(82%)、中国(77%)と半数を超えるなか、日本は40%と諸外国と比べ、低い普及率でした。

    音声認識は、ビジネスや日常生活で大きく活用されています。私たちは日々進化する技術革新を観察し、AI(人工知能)を積極的に受け入れていくことが必要なのではないでしょうか。