大日本印刷とNHK、AIで感情にあわせたフォントに変える字幕システム

このエントリーをはてなブックマークに追加

大日本印刷株式会社(DNP)と株式会社NHKテクノロジーズ(NT)は8月24日、映像と音声を人工知能(AI)で解析し、内容や感情にあわせた最適なイメージのフォントで字幕を表示できる「感情表現字幕システム」のプロトタイプを開発したと発表。

本システムは、2018年にDNPが開発した文章の内容にあうフォントを自動で判別し、表示する「DNP感情表現フォントシステム」を活用している。これにより、耳の不自由な人や音が出せない環境でも、番組の臨場感を伝えられるという。

楽しい内容は丸みのある文字、怒っている内容は角ばった文字に

楽しい内容の場合

不安な内容の場合

具体的には、録画やライブ(生放送)の音声を解析して、リアルタイムで字幕を自動的に付けられる。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを12種類のなかから、自動で選んで字幕に使用する。たとえば、楽しい内容は丸みのあるフォントで、怒っている内容は角ばったフォントで表示できる。

また、映像内の発話者を特定して、自動的にその口もとの近くに字幕を表示できる。これにより、複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えられるとのこと。

ユニークなフォントは印象深くなるという意見も

近年、多くの人にわかりやすく情報を伝える「ユニバーサルメディア」へのニーズが高まっており、テレビも聴覚に障がいのある人や高齢者などに向けて、より多くの番組への字幕付与が求められている。

NTは2018年度に「多様な視聴者が番組やコンテンツを楽しめる」をテーマに、聴覚に障がいのある人とディスカッションをし、「これまでの字幕放送はフォントに抑揚がない」「タイミングがずれることがある」「発話者がわかりにくい」といった課題があがった。一方で、テロップに使われるユニークなフォントは印象深くなるという意見もあったという。

また、制作側は番組に字幕を入れる作業が大きな負荷になっており、自動的に精度の高い字幕を付与できる技術を求めていたとのこと。今回、発表した「感情表現字幕システム」はこのようなニーズを受け、共同開発をしたと説明している。

生放送やインターネット同時配信での活用を目指す

DNPとNTは今後も「感情表現字幕システム」の開発を継続し、字幕放送(常時表示される「オープンキャプション」)での実用化を目指すという。音声認識や感情認識のAIの精度を向上させ、リアルタイム性の向上も進めることで、生放送やインターネット同時配信サービスの字幕(表示/非表示を切り替えられる「クローズドキャプション」)への展開も目論んでいるとのこと。

さらに、DNPはデジタルサイネージなどの動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供を予定している。

>>ニュースリリース

東芝が高精度の音声字幕生成システム開発 オンライン授業での活用狙う

近年、AIを活用し、音声から字幕を表示できるシステムの開発は進んでいる。

たとえば、東芝は6月10日、音声から字幕をリアルタイムで自動生成するシステムToScLive(トゥスクライブ)を発表した。

ToScLiveはクラウド上で利用でき、システムを通して音声を入力すると、音声認識AIが字幕を自動で生成する。ビデオ会議システムとは独立しているので、ZoomやMicrosoft Teamsといったさまざまなビデオ会議ツールと併用できる。

また、字幕閲覧専用のURLやQRコードを共有すると、聴講者に字幕を同時配信できる。学生は専用URLにアクセスすると、オンライン授業(もしくは録画した映像)で教師が話している内容をリアルタイムで字幕として見られるという仕組みだ。