大日本印刷、AI活用した音声合成システム開発 従来比で誤読やイントネーションの違いを最大で約70%削減

このエントリーをはてなブックマークに追加

大日本印刷株式会社(DNP)とグループ会社の株式会社DNPコミュニケーションデザイン(DCD)は、人間の音声を人工的に作り出す「音声合成」の制作時に起きる読み間違いを減らし、人間が読むナレーションのイントネーションやアクセント、間合いに近い自然な音声を自動生成できるAI(人工知能)を活用した音声合成システムを開発した。

漢字の「誤読」や「イントネーションの違い」

本システムは従来のDNPの音声合成の制作と比較し、制作時に起きる漢字の「誤読」や、“橋/箸/端”など同じ読み仮名で異なる「イントネーションの違い」を約50%から70%削減するという。高齢者や身体障がいの有無にかかわらず、誰でも必要な情報に簡単にたどり着けるアクセシビリティの向上を図る狙いだ。

汎用性の検証をした結果、「読み」「アクセント」「間」で約85%以上の正確性

本システム開発の背景には、音声合成の精度は年々向上しているにもかかわらず、漢字の誤読や発音・イントネーションの間違いが今も発生していることがある。この課題に対してDNPとDCDは、「単語の読みや発音で、間違いのない音声データ」を機械学習し、誤読が少なくスムーズな発音の音声合成を自動生成できるDNP独自のAIシステムを開発した。

本システムは、文章の文脈を加味してイントネーションとアクセントを自動生成することで、人間が読むナレーションに近い自然な音声を生成可能にした。

既存の音声データに加え、追加学習によってデータを増やすほど、読みの正確性やイントネーションおよびアクセントの精度が向上する。複数の生命保険会社の契約で汎用性を検証したところ、「読み」「アクセント」「間」について約85%以上の正確性が確認されたという。

本システムは、音声合成が利用されている学校教材や電子書籍、生命保険・損害保険の約款や契約書、e-Learningや研修教材など、テキスト量の多いコンテンツで活用できる。

今後、DNPとDCDは追加学習を重ねることでさらなる精度の向上を図るとしている。

>>ニュースリリース