人間では5分程度かかる文章を10秒以下で要約するAI、長文をたった3行に 東京松尾研発のELYZA

このエントリーをはてなブックマークに追加

東京大学松尾研発のAI(人工知能)スタートアップである株式会社ELYZA(イライザ)は8月26日、日本語における生成型要約モデルの開発に成功したと発表。同モデルを用いた要約AI「ELYZA DIGEST(イライザ ダイジェスト)」をデモサイトとして一般公開した。人間の場合は5分程度の時間がかかる平均900字程度の文章を、本AIはわずか10秒以下で要約できる。

本AIは、入力したテキストデータを3行に要約できるもの。国内での成功例が少ないという「生成型要約」を採用しており、読み込んだテキストをもとにAIが一から要約文を生成する。

書籍・小説・ニュース記事のような誤字脱字の少ないキレイな文章だけではなく、議事録・対話テキストのような乱雑な文章・文字列にも対応している。URLを張り付けることで、該当ページ内の全テキストからも要約できる。

人間は5分程度かかる文章を10秒以下で要約

ELYZAは要約の精度をする評価ため、「正確性(原文に対して不正確な記述がないか)」「流暢性(文法やスペル、構造のミスがないか/主語の省略を正しく補完できているか/過剰な繰り返し表現がないか)」の観点で、AIと人間が作成した要約文を比較検証した。

ニュース記事について「ELYZA DIGEST」と人間の要約文を比較した結果。数値は対象のニュース記事のうち、各評価項目に対して問題ない要約文を作成できた割合(%)を表す

「正確性」では、AIは全体の90%の記事に対して問題ない出力ができており、人間に匹敵する精度で要約文を生成できていると言える。

「流暢(りゅうちょう)性」では、人間の要約と比べると何らかのミスがある出力をする割合が多い結果になった。内訳はいわゆる文法のミスに加え、日本語によくある原文での主語の省略に対して、要約文で適切な主語を補完できておらず、文が少し読みにくくなっている箇所が見受けられた。ELYZAはこれらの点については、より人間が読みやすい要約文を生成できるように改善に取り組むとしている。

要約の所要時間の比較

要約の効率性については、今回の検証で用いた記事は平均900字程度だった。AIは1記事あたり10秒以下で要約できるのに対して、人間の場合は5分程度の時間がかかった。

ELYZAは「BERT」が登場した2018年以降大規模言語モデルの研究開発を進めており、2020年にはBERT以後の大規模言語モデルと同社独自の大規模データセットを活用する日本語特化AIエンジン「ELYZA Brain」を開発した。その後、ELYZA Brainの改良だけでなく、タスクに特化した改善を継続的に実施しており、その成果の1つとしてELYZA DIGESTを公開したという。

ELYZAは本AIを改善していくことで、言葉を扱うホワイトカラーの生産性を向上させていきたいと意気込む。具体的には、医療におけるカルテ入力、弁護士業務における契約書類や判例の読解、コールセンターにおけるオペレーターの対話メモ作成、メディアにおける記事の原稿作成などのユースケースを想定している。

口語特有の「あのー」「えーと」など間投詞をカットして要約

「ELYZA DIGEST」は7月1日から、SOMPOホールディングス株式会社のグループ会社である損害保険ジャパン株式会社と開始した実証実験でも利用された。本実証実験ではカスタマーセンターにおける要約作成業務を対象に、音声認識後の対話テキストから要約するAIの開発を目指している。

実際に「ELYZA DIGEST」を用いて対話テキストを要約したところ、口語特有の「あのー」「えーと」などの間投詞や音声認識のミスがあっても、妥当な要約文を生成できているという。

>>ニュースリリース