【朝日新聞】記事見出しを自動作成するAPIを公開中 ── 開発の裏側に迫る

このエントリーをはてなブックマークに追加

テクノロジーとは遠いイメージを持たれがちな新聞社ですが、実は社内には多くの技術者が働いており、最近では蓄積されたデータを活用したAIの研究が進められています。

朝日新聞社では、過去30年間およそ900万記事がデジタルデータとして蓄積されています。この膨大な言語資源を活用した取り組みが、AIによる見出しの自動生成です。

自動見出し作成API公開の裏側を、朝日新聞社メディアラボの田森秀明氏に取材しました。

田森 秀明
株式会社朝日新聞社 メディアラボ 主査、博士(情報科学)
2003年朝日新聞社入社。製作本部東京発送部、同工程管理セクション、システムセクションなどを経て現職。2015年7月~2016年6月スタンフォード大学アジア太平洋研究所客員研究員。

新聞らしい見出しを自動生成

――記事から自動で見出しを作成するAPIを作った背景を教えてください。

――田森
新聞記事の見出し作成には意外と手間がかかるんです。媒体ごとに見出しの長さを変えるなど、複数の編集者によって1記事あたり4見出しも考える場合があります。

この例のように、見出しをつけることはかなりのコストが掛かるため、メディアの規模によっては編集者による見出し付与がかなりの重荷になっている場合があります」

社内ニーズに加えて、新興メディアや地方紙でも活用されるのではと考え、見出しの自動作成APIの開発が始まったといいます。

実際に、一般公開されているAPIを使い、Ledge.ai編集部でも見出しを自動生成してみました。

解析に使用できる文章は、最長で200単語までで、それを超える入力は内部処理でトリミングされます。今回は、記事から一部抜粋した文章から見出しを作成しました。見出しの文字数は指定せずAPIに推定してもらい、出力する候補数は5つに設定しています。

インプットした文章
2019年3月28日、「メルカリAI技術説明会」が行われた。AI(人工知能)時代に向け、テックカンパニーを目指すメルカリの技術に関する取り組みが紹介された。登壇したのは、メルカリ取締役兼最高製品責任者(CPO)の濱田 優貴氏、AI Engineeringチームディレクター 木村 俊也氏、AI Engineeringチームマネージャー 山口 拓真氏だ。メルカリの技術面を担うメンバーが、世界のAIトレンドやテックカンパニーとしてメルカリが目指す世界、メルカリを支える最新のAI技術について説明した。

API結果

{"message":"ok",
 "headline":["メルカリ技術説明会","メルカリの技術説明会","「メルカリAI説明会」","「メルカリAI説明会」開催","「メルカリAI」説明会"]}

見出し候補

  • メルカリ技術説明会
  • メルカリの技術説明会
  • 「メルカリAI説明会」
  • 「メルカリAI説明会」開催
  • 「メルカリAI」説明会

インプットした文章
東京の主要エリアを始め、全国に72店舗展開される「一軒め酒場」。その一軒め酒場 新橋店にて実施された、AI搭載カメラを活用した年齢認証における実証実験で、未成年者の検知率96.1%を実現したという興味深いニュースが飛び込んできた。

API結果

{"message":"ok",
 "headline":["「一軒め酒場」の検知率96.1% 東京","「一軒め酒場」の検知率96.1%","「一軒め酒場」の検知率96.1%に","「一軒め酒場」の実証実験","「一軒め酒場」の実証実験 東京"]}

見出し候補

  • 「一軒め酒場」の検知率96.1% 東京
  • 「一軒め酒場」の検知率96.1%
  • 「一軒め酒場」の検知率96.1%に
  • 「一軒め酒場」の実証実験
  • 「一軒め酒場」の実証実験 東京

インプットした文章
現在、将棋界におけるAIは、プロ棋戦のインターネット生中継における評価値(ある局面での優劣評価)を示すコンテンツや研究に活用されるなど、業界全体に多様な影響を与えています。

API結果

{"message":"ok",
 "headline":["プロ棋戦のAI、業界全体に影響","将棋のAI、業界全体に影響","将棋界のAI、業界に影響なし","将棋界のAI、業界に影響与え","将棋界のAI、業界に影響与える"]}

見出し候補

  • プロ棋戦のAI、業界全体に影響
  • 将棋のAI、業界全体に影響
  • 将棋界のAI、業界に影響なし
  • 将棋界のAI、業界に影響与え
  • 将棋界のAI、業界に影響与える

このAPIは、ディープラーニングの発達により近年めざましい発展を遂げている機械翻訳の技術を応用しているとのことです。学習データが朝日新聞社の記事なので、まるで新聞の編集者が作成したような見出しが作成できます。記事内容を正しく表していないものもありますが、記事の内容を端的に表した候補が生成されています。

これからは、ターゲット読者層や記事の狙いに応じて、見出し出力をカスタマイズできるようにするなど、バリエーションを増やしたいと田森氏は語ります。

新しいビジネスを生み出す挑戦

自動見出し作成APIを開発した朝日新聞社メディアラボは、新聞業に代わる新しいビジネスを生み出すことを目的に、2013年9月に設立されました。

――田森
「新聞の読者が減るなか、新しいビジネスを生み出そうと挑戦しています。社内の事業コンテストからビジネスアイデアを集めて、優秀なものをゼロベースで事業計画やPoCを進め、メディアラボで事業化しています」

朝日新聞社メディアラボではこれまでに、140年の歴史で培った取材力や筆力、編集力、豊富な情報量を生かし、お客様の人生を1冊の本にまとめるサービス「朝日自分史」や、『スマートな暮らし』をテーマに、仕事・遊び・家を便利にするモノやアイディアを伝える動画ウェブメディア「MOOVOO」など、新しいサービスを次々に発表しています。

自動見出し作成APIの開発も、新しいテクノロジーを応用した新規事業開発の一環です。これまでに蓄積された膨大なテキストデータを存分に生かした、新聞社だからこそ取り組めるAIプロジェクトです。

すでに綺麗な日本語データがある

膨大なテキストデータを活用するには、表現のブレ誤字脱字などがネックになる場合も多いです。しかし、新聞記事に使われている日本語には、その心配がほとんどないのだと言います。

――田森
「新聞記事は、記者や編集者が何度も校正・校閲を重ね、極力正しい日本語を使うよう、細心の注意が払われてきました。社内レギュレーションもあり、表現のブレもほとんどありません」

テキストデータの活用を進める際、学習データの前処理につまずく事例も多いですが、このような綺麗な日本語のテキストデータを保有していることは、新聞社ならではのアドバンテージです。

現在は、見出し生成の性能を上げるため、試行錯誤を繰り返していると言います。

――田森
「先日、見出し生成に関する社内アンケートを実施しました。見出しだけでは、人間が書いた見出しと自動生成された見出しの判断がつかないほどでした。
しかし、記事内容と見出しを照らし合わせると、まだまだ内容が端的に表せていないケースもあり、改善が必要です」

――テキストデータの学習や、パラメータを変更しての検証などには相当な時間を要しそうです。処理するデータ量も膨大ですが、どう対応されているのでしょうか?

――田森
「『Oracle Cloud Infrastructure』を使っています。パラメータの変更などの試行錯誤を繰り返すには、CPUでは時間がかかりすぎるため、GPUを使用しています。

ベアメタル・インスタンスを活用しているのですが、8GPU搭載しているので、非常に高いパフォーマンスのGPU環境が利用できています」

Oracle Cloud Infrastructureでは、最新のNVIDIA GPUを使用でき、使えるシェイプもベアメタルやVMなど複数の選択肢があります。

また価格も低いため、より多くのGPUインスタンスを立てられるのだそう。

資料提供:日本オラクル株式会社

インフラ整備はAI活用に必須

性能の向上を進めながらも、すでに社内CMSの一部に自動見出し生成が組み込まれていると田森氏は説明します。

――田森
「まだ実験段階ですが、社内で運用されているCMSでは、このAPIを利用してボタン1つで見出し生成ができるようになっており、編集の効率化につながるか検討されています。

今後は、記事の自動校正についても取り組みたいと考えています。この自動校正プロジェクトにおいては、『Oracle Autonomous Database Cloud』が活用できるのではないかと考えています」

Oracle Autonomous Database Cloudはデータベース内に機械学習エンジンがあり、そこで分析処理が実行ができます。また自動バックアップ・パッチ適用などのデータベース管理業務の自動化のみならず、機械学習によって高度なチューニングまで自動化されるので、解析用データの格納・管理が簡単なのだといいます。

資料提供:日本オラクル株式会社

記事見出しの自動生成や自動校正プロジェクトでは、膨大なテキストデータを処理する必要があり、インフラの整備も重要となります。性能のよさと価格の手軽さを兼ね備えたサービスを選択することは、AI活用を進める上で不可欠な要素ではないでしょうか。