純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

このエントリーをはてなブックマークに追加

株式会社レアゾン・ホールディングスは2023年1月18日、高精度日本語音声認識モデルを中心とするプロダクト群「ReazonSpeech」を公開した。これらを用いた文字起こしサービスが、プロジェクトwebサイトにて実際に試すことができる。

ReazonSpeechの特徴

同プロダクト群は、約19,000時間の放送音声からなるラベル付き日本語音声コーパス(音声データとテキストデータを発話単位で対応付けて集めたもの)で、日本語音声認識技術の研究の推進を目的として構築され、いずれも無償にて公開されている。それぞれの特徴は以下の通り。

ReazonSpeech音声認識モデル
高精度(※OpenAI Whisperに匹敵)な日本語音声認識モデル。商用利用可
ReazonSpeechコーパス作成ツール
TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可
ReazonSpeech音声コーパス
世界最大19,000時間の高品質な日本語音声認識モデル学習用コーパス

※「Whisper」:ChatGPTなど最先端のAIプロダクトを発表している米国の人工知能研究所OpenAIが2022年9月に公開した高精度な音声認識モデル。

ReazonSpeech音声認識モデル実行例

 

スマホの通話内容をReazonSpeechを使用しリアルタイムで自動文字起こししてslackに記録する例

 

開発の背景

同社は、高精度な音声認識モデルを得るためには音声コーパスが大量に揃っていることが必要不可欠であるという。

誰もが自由に使える形で大規模な音声コーパスが公開されれば、当技術の迅速な発展に大きく寄与するが、日本語では、商用利用も含めて英語等の言語とは異なり自由に利用可能なコーパスは量が少ない。

同プロダクトでは、ワンセグ放送の録画データから音声コーパスを自動抽出している。
録画データから音声コーパスを構築するためには、アラインメント処理(発話単位で音声と字幕テキストを対応付ける処理)が必要となる。手動で処理を行うと膨大なコストがかかる処理のため自動化が必須となる。しかし既存の音声認識モデルを利用すると、自動化できるが、そこから得られた音声コーパスは、元の音声認識モデルやその学習に用いた音声コーパスのライセンスの影響を受けてしまう。

そこで、最初に小規模ではあるものの自由なライセンスで利用可能な Mozilla Common Voiceという音声コーパスから構築した音声認識モデルでアラインメント処理を行い、そこで得られた音声コーパスを元にして再度アラインメント処理を実行する、という過程を幾世代も重ねて、少しずつ音声コーパスのサイズを増やしていった。現在のサイズは19,000時間だが、今後さらに規模を拡大する予定だという。

 

関連技術との比較

同社は「ReazonSpeech」コーパスを用いて構築した音声認識モデルを、他の主要な音声認識モデルとの精度比較として「OpenAI Whisper」「LaboroTVSpeech」を用いた結果を示した。一般に音声認識モデルのパラメータ数と精度はトレードオフの関係にあるが、ESPnet Reazon Speech は、少ないパラメータ数で Whisper large-v2 と同等の精度を達成している。

 CER音声認識精度の比較 (CER Character Error Rate 小さいほど良い)

※ESPnet : E2E音声処理のためのオープンソースツールキット。

Common VoiceでのCER音声認識精度(小さいほど良い) vs モデルパラメータ数(少ないほど良い)

ライセンス

音声認識モデルと音声コーパス作成ツールはApacheライセンス2.0にて公開するため、商用・非商用を問わず、誰もが自由に利用・改変・再配布し、同様のコーパスの構築・共有活動に参加できるという。音声コーパスについては、 CDLA-Sharing-1.0ライセンスを予定。著作権法30条の4を含む適用法令を遵守し、現著作権者の権利を侵害しないことが前提とのこと。

ReazonSpeechの公開成果物とライセンス

 

同社は今後、言語処理学会第29回年次大会(NLP2023)で今回の成果について報告し、より大規模で高品質な音声コーパスの継続的なリリースを予定。多くの人が自由な音声コーパスの構築と共有に参加するための普及活動の実施を目指すとのこと。

 

>>ニュースリリース