OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始

このエントリーをはてなブックマークに追加

インター・ラボ株式会社は12月15日、人工知能研究組織OpenAIが開発した音声認識モデル「Whisper」を利用した音声文字起こしAPIである「WhisperAPI」の無償提供を開始したことを発表した。OpenAIは、文章から画像を生成するAI「DALL・E2」や、自然で多彩な文章を生成するAI「GPT-3」などを開発している。

高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いユーザーが利用できるようにする。また、プログラミングの知識を持たない人でもブラウザでかんたんに利用できるWebサービスも提供する。

音声認識モデル「Whisper」

画像はWhisper公式Githubより

Whisperとは、OpenAIが開発した汎用的な音声認識モデルで、現在GitHubにおいて公開されている。教師あり学習で68万時間というデータを学習しており、高い音声認識精度を持つ。音声翻訳や言語識別、多言語音声認識ができるマルチタスクモデルで、音声からの文字起こしや音声からの翻訳処理を実行できる。

Whisperはインターネット上に公開されている音声ファイルを使用して学習している。教師あり学習を利用することで、詳細なアノテーションがなくても音声をBGMと言語に区別できる。データにアノテーションが必要なくなったため、従来よりも多くのデータセットを使用した学習が可能となり、ファインチューニングなしで高性能な音声認識モデルとなった。

データセットは全体で68万時間の音声とテキストで、主要な3言語以外の96言語の認識用には約11万時間の音声とテキストを使用した。また、機械翻訳によって音声をテキスト化したものを判別する仕組みを構築することで、人間の手によって翻訳された音声を多く使い、学習の精度を高めている。各言語の中でも、日本語の単語誤り率は5.3%(2022年12月現在)と高い文字起こし精度となっている。

文字起こし例

提供しているモデルサイズtiny、smallで音声を文字起こしした例を示す。同社が提供しているAI音声合成読み上げサービス「バズ読」で生成した音声を使用したという。

  • 例1
  • 音声原文
    「自然災害は突発的に大きな被害をもたらします。そのため、日頃から十分な防災対策が求められます」

    モデルサイズsmall文字起こし結果
    「自然災害は突発的に大きな被害をもたらします。そのため、日頃から十分な防災対策求められます」

    モデルサイズtiny文字起こし結果
    「自然災害は突発的に大きな被害を戻らします。そのため、日頃から十分な防災対策が求められます」

  • 例2
  • 音声原文
    「バズ読、カスタマーサポートです。ご利用方法に関するお問い合わせは1を、お支払いに関するお問い合わせは2を押してください」

    モデルサイズsmall文字起こし結果
    「バズドク、カスタマーサポートです。ご利用方法に関するお問い合わせは一応、お支払いに関するお問い合わせは二応してください」

    モデルサイズtiny文字起こし結果
    「バズドク、カスタマーサポートです。ご利用方法に関するをとい合わせはいちをおしはらいに関するをとい合わせは2をしてください」

今後の展望

Whisperにはsmallよりもサイズが大きく精度の高い「large」があるため、今後API化し提供していく。また、現在は音声の文字起こし機能のみだが、翻訳機能や音声の言語認識、音声区間検出とそれらに対応するタイムスタンプの出力などもニーズに合わせて実装していく予定だ。

>>ニュースリリース