Ledge.aiでも何度か紹介している、株式会社リクルートテクノロジーズが開発し、リクルートグループ内で使われている内製AIのAPI群「A3RT」。
3月27日に「Text Summarization API」という、文章要約をおこなうAPIがあらたに追加されました。
Text Summarization APIって?
実際に使ってみる前に、簡単にText Summarization APIの概要をご紹介。
Text Summarization APIは具体的に、
- 文章の意味を読み取り、分類
- 特徴的な文章の抽出
をしてくれます。
複数の文章要約アルゴリズムを持っているリクルートですが、Text Summarization APIでは、Doc2Vecを用いたモデルを採用しています。
Doc2Vecは、文書をベクトル化する技術です。単語の意味をベクトル化する手法としてWord2Vecがありますが、Doc2VecはWord2Vecを応用したものです。
それではAPIを試していきましょう。
AIが文章の意味を読み取り、重要なセンテンスを抽出する
まず最初に要約させるのは、記事から一部抜粋したこちらの文章。
※現在のText Summarization APIの制限事項は、要約できる1文の最大文字数は200文字、且つ最大文章数は10です。
APIに解析させて返ってきた結果がこちらです。
{
"message": "Summarization is completed",
"status": 0,
"summary": [
"日本ソフトウェア科学会は、今年4月に「機械学習工学研究会(MLSE)」を公式研究会として正式に発足することを発表しました",
"「機械学習工学研究会」は、機械学習・ソフトウェア工学を代表するような研究者とエンジニアがお互いの研究やプラクティスを共有しあう会になっています",
"司会・モデレータは、Preferred Networks最高戦略責任者、丸山宏氏"
]
}
Text Summarization APIは、与えられた文章を要約して、新しい文章を生成するわけではありません。
与えられた文章のなかから、文章全体の意味を最もよく表し、重要度の高いセンテンスを抽出してくれます。
今回のケースでは、抽出されたセンテンスから上位3件を出力してみました。こうすることで、全体の文章量は少なく、重要なセンテンスが含まれた、まさに要約文が作られます。
ほかの文章でも試してみましょう。
解析結果がこちら。
{
"message": "Summarization is completed",
"status": 0,
"summary": [
"これから紹介する2つの技術がかけ合わされば、データ化されていないような膨大な情報をデータとして取り込むことができ、それを構造化して簡単に管理できます",
"Tegakiは誰にでも簡単に使えるサービスです",
"開発当初は90%程度の認識率だったのですが、このシステムを継続的に運用し、学習させていくことで、今やこの精度を実現するまでになりました"
]
}
入力された文章を読んでから、要約された文章をみてみると、たしかに重要なセンテンスが抽出して、うまく要約されているようです。
今後は新しいアプローチの文章要約AIも?
Text Summarization APIのような文章要約技術は、ニュースやウェブサイトなど、活用の幅は広いです。
もちろん、今回のようなセンテンス抽出型の要約は、
- 文法的におかしな文章は出力されない
- 出力結果が理解できる内容になりやすい
といったメリットがある一方、与えられた文章にない単語や表現を使えないので、要約文章の細かいところまで手が届かず、煩雑なな要約になるといったデメリットもあります。
発表されたText Summarization APIは、version1。リクルートテクノロジーズが今後どのようなアプローチで文章要約AIを開発していくのか、引き続き追っていきたいですね。
「A3RT」で公開されているAPIは無料で試すことができます。興味がある方は使ってみてはいかがでしょうか?