AIが文章の意味を理解する?リクルートのAI「A3RT」で文章要約してみた

このエントリーをはてなブックマークに追加

Ledge.aiでも何度か紹介している、株式会社リクルートテクノロジーズが開発し、リクルートグループ内で使われている内製AIのAPI群「A3RT」。

3月27日に「Text Summarization API」という、文章要約をおこなうAPIがあらたに追加されました。

Text Summarization APIって?

実際に使ってみる前に、簡単にText Summarization APIの概要をご紹介。

Text Summarization APIは具体的に、

  • 文章の意味を読み取り、分類
  • 特徴的な文章の抽出

をしてくれます。

複数の文章要約アルゴリズムを持っているリクルートですが、Text Summarization APIでは、Doc2Vecを用いたモデルを採用しています。

Doc2Vecとは

Doc2Vecは、文書をベクトル化する技術です。単語の意味をベクトル化する手法としてWord2Vecがありますが、Doc2VecはWord2Vecを応用したものです。

それではAPIを試していきましょう。

AIが文章の意味を読み取り、重要なセンテンスを抽出する

まず最初に要約させるのは、記事から一部抜粋したこちらの文章。

日本ソフトウェア科学会は、今年4月に「機械学習工学研究会(MLSE)」を公式研究会として正式に発足することを発表しました。「機械学習工学研究会」は、機械学習・ソフトウェア工学を代表するような研究者とエンジニアがお互いの研究やプラクティスを共有しあう会になっています。その最初の活動として、キックオフシンポジウムを5月17日(木)一橋大学一橋講堂にて開催するようです。機械学習を使ったソフトウェアシステム開発をするエンジニアや研究者にとって有意義な会になっているようです。シンポジウムの最後には、登壇者全員を交えたパネルディスカッションもあります。司会・モデレータは、Preferred Networks最高戦略責任者、丸山宏氏。ディスカッションテーマは、「機械学習工学はどこへ向かうか」。イベント終了後には、事前予約が必要な交流会も用意されています。参加する以外の選択肢はありませんね。機械学習工学研究会キックオフシンポジウム公式ページ。

※現在のText Summarization APIの制限事項は、要約できる1文の最大文字数は200文字、且つ最大文章数は10です。

APIに解析させて返ってきた結果がこちらです。

{
    "message": "Summarization is completed",
    "status": 0,
    "summary": [
        "日本ソフトウェア科学会は、今年4月に「機械学習工学研究会(MLSE)」を公式研究会として正式に発足することを発表しました",
        "「機械学習工学研究会」は、機械学習・ソフトウェア工学を代表するような研究者とエンジニアがお互いの研究やプラクティスを共有しあう会になっています",
        "司会・モデレータは、Preferred Networks最高戦略責任者、丸山宏氏"
    ]
}

Text Summarization APIは、与えられた文章を要約して、新しい文章を生成するわけではありません。

与えられた文章のなかから、文章全体の意味を最もよく表し、重要度の高いセンテンスを抽出してくれます。

今回のケースでは、抽出されたセンテンスから上位3件を出力してみました。こうすることで、全体の文章量は少なく、重要なセンテンスが含まれた、まさに要約文が作られます。

ほかの文章でも試してみましょう。

AIはいわば、人間の脳です。脳の構造と同じように、それぞれのAIシステムが相互に影響を与えながら統合していき、新しい価値を生み出していきます。これから紹介する2つの技術がかけ合わされば、データ化されていないような膨大な情報をデータとして取り込むことができ、それを構造化して簡単に管理できます。そしてこれを用いることで、生産性が大幅に上がるのです。Tegakiは誰にでも簡単に使えるサービスです。言語として非常に読み取りの難しいとされる日本語も『Tegaki』にかかれば、99%以上の精度で手書き文字を認識することができます。開発当初は90%程度の認識率だったのですが、このシステムを継続的に運用し、学習させていくことで、今やこの精度を実現するまでになりました。従来は業務で用いる目的のデータを膨大な非構造データから探し当てることに時間を大きく取られてしまっていました。この『Kaidoku』はさまざまな形式のテキストを分類、検索、可視化できます。今後はシステムが自動で企業を運営していくというフェーズになってくるでしょう。

解析結果がこちら。

{
    "message": "Summarization is completed",
    "status": 0,
    "summary": [
        "これから紹介する2つの技術がかけ合わされば、データ化されていないような膨大な情報をデータとして取り込むことができ、それを構造化して簡単に管理できます",
        "Tegakiは誰にでも簡単に使えるサービスです",
        "開発当初は90%程度の認識率だったのですが、このシステムを継続的に運用し、学習させていくことで、今やこの精度を実現するまでになりました"
    ]
}

入力された文章を読んでから、要約された文章をみてみると、たしかに重要なセンテンスが抽出して、うまく要約されているようです。

今後は新しいアプローチの文章要約AIも?

Text Summarization APIのような文章要約技術は、ニュースやウェブサイトなど、活用の幅は広いです。

もちろん、今回のようなセンテンス抽出型の要約は、

  • 文法的におかしな文章は出力されない
  • 出力結果が理解できる内容になりやすい

といったメリットがある一方、与えられた文章にない単語や表現を使えないので、要約文章の細かいところまで手が届かず、煩雑なな要約になるといったデメリットもあります。

発表されたText Summarization APIは、version1。リクルートテクノロジーズが今後どのようなアプローチで文章要約AIを開発していくのか、引き続き追っていきたいですね。

A3RT」で公開されているAPIは無料で試すことができます。興味がある方は使ってみてはいかがでしょうか?

>> Text Summarization API