東芝が高精度の音声字幕生成システム開発 オンライン授業での活用狙う

このエントリーをはてなブックマークに追加


東芝は6月10日、音声から字幕をリアルタイムで自動生成するシステムToScLive(トゥスクライブ)を発表した。

ToScLiveはクラウド上で利用でき、システムを通して音声を入力すると、音声認識AIが字幕を自動で生成する。ビデオ会議システムとは独立しているので、ZoomやMicrosoft Teamsといったさまざまなビデオ会議ツールと併用できる。

また、字幕閲覧専用のURLやQRコードを共有すると、聴講者に字幕を同時配信できる。学生は専用URLにアクセスすると、オンライン授業(もしくは録画した映像)で教師が話している内容をリアルタイムで字幕として見られるという仕組みだ。

>>プレスリリース

簡単な操作で高精度音声認識AIが使える

ToScLiveの特徴は、AIになじみがない人でも簡単に利用できる使い勝手の良さだ。

専門用語をテキストから自動抽出し、学習の手間をカバー

ToScLiveに搭載された音声認識AIは数十万単語を学習しており、一般的な日常会話をカバーしている。認識精度は85%を誇り、これは字幕を見ただけで発言内容が理解できると言われるレベルだという。字幕を読みやすくするために「えー」、「あのー」といった無意味なつなぎ言葉(フィラー)や、「きょ、今日は」といった言いよどみを自動的に認識し、薄い文字で表示する。

大学の講義で使われる専門用語は、テキストファイルをアップロードすると用語を自動抽出し、語の読みとあわせて辞書登録(学習)が可能。用語が登録された辞書を選択してから授業を始めると反映され、字幕の精度がさらに向上するという。

辞書はクラウド上で保存されるので、過去の授業で登録した辞書を別の授業で使うことも可能だ。

周囲の雑音の大きさを認識して最適なマイク音量に調整

音声認識の精度を高めるには、マイクなど音響設備の細かな設定も欠かせない。ToScLiveは、授業の開始前に声を吹き込むだけで、マイクが正しく繋がっているか・音質が良好かといった動作状況の確認とテストができる。あわせて周囲の雑音の大きさを測定し、より音声を認識しやすくできるサポート機能も備えている。これらはマウス操作だけで簡単に設定できる。

通信環境が貧弱な環境でもオンライン授業の質を下げない

新型コロナウイルス感染症の影響で、学校の授業もオンライン化が進んだ。大学では半数近くの教育機関でオンライン授業を実施しているが、「学生の反応が見えにくく、授業を理解できているのかわからない」という問題があった。

そこで教師の音声を認識した音声字幕を提供することで、学生の聞き逃しを回避するほか、授業後の復習を容易にする。

――東芝 研究開発センター 岩田憲治氏
「学生や教育機関によっては通信回線が貧弱で、オンラインで授業動画を見ることが難しいという声も聞いています。そんな中でも授業の質を下げず、教師と学生がうまくコミュニケーションがとれるよう、ToScliveを活用していただきたいです」

サービスリリース時期は現在未定だが、6月中に慶應義塾大学、法政大学での実証実験を開始する。実験では現場の声をヒアリングし、実用に耐えうる音声認識精度かや、授業の質が向上しているかなどを確認していくという。

今後は実証実験で得られた知見をもとに機能を改善していき、教育現場だけでなく、ビジネスでのオンライン会議や講演、聴覚障碍者向けの議事録サポートなど利用の幅を広げる。ゆくゆくは双方向でのコミュニケーションに役立つ機能も追加していきたいとのことだ。

利用広がる音声認識AI

音声認識AI活用の動きは教育やビジネス現場にとどまらず、行政にも広がっている。

茨城県つくば市では2019年12月、IBMが提供するクラウドサービス型のAI議事録ソリューション「AI Minutes for Enterprise」の利用実験を開始した。

青森県庁は2020年1月に、クラウド型AI議事録作成支援ソリューション「AI Minutes for Enterprise」を採用。会議の議事録作成時間を大幅に削減できるよう、全庁内で使い勝手や効果を検証し、同年度中の本格導入を目指す。

実用的な技術として、より身近な存在になっている音声認識技術。近年の自然言語処理技術の発達もあり、音声書き起こし精度はより高くなるだろう。今後はツールの使いやすさの向上にも期待したい。