日本経済新聞記事オープンコーパス公開、国立国語研究所と開発

このエントリーをはてなブックマークに追加

日本経済新聞社は2023年3月13日、大学共同利用機関法人人間文化研究機構国立国語研究所(※)と共同で日本経済新聞の朝夕刊(2013年1~2月)から選択した約100本の記事を元に日本語の書き言葉コーパス「日本経済新聞記事オープンコーパス」を開発し公開したと発表。
国立国語研究所:国語に関する総合的研究機関として1948年に誕生。2009年10月に大学共同利用機関法人人間文化研究機構国立国語研究所となり、共同研究・共同利用を中心とした活動を展開している。

コーパスとは、文章をセンテンスごと(一文)に分けたものを構造化し、言語情報(品詞など)を付与したもので、人工知能(AI)が日本語を理解するための学習データに使われるなど、自然言語処理技術の発展に欠かせない言語資源であるという。

同コーパスは、コーパスデータとその元となる記事データがセットで公開されている。記事データは日本経済新聞社が提供、コーパスは国語研が開発。コーパスの開発経緯と内容については、言語処理学会第29回年次大会で報告予定であるという。
※研究用途に限り無償での利用が可能で、以下のURLからダウンロード可能とのこと。
ダウンロードサイト:https://nkbb.nikkei.co.jp/alternative/corpus/

>>ニュースリリース