国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ

このエントリーをはてなブックマークに追加

LINEは、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。

国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。

今回テキストデータ化するデジタル化資料の多くは昭和前期以前の資料で、紙面のレイアウトが複雑だという。そのため、処理に多くの時間かかるうえに、学習機能のない既存のOCRでは読み取り精度が低かった。

CLOVA OCRは文書解析と認識に関する国際会議ICDARで評価された実績を持ち、ルビ・割注・割書きといった特殊な文書や、文字領域の検出が難しい資料でもスピーディに読み取りができる。

今回の取り組みについて国立国会図書館は、リリースで以下のようにコメントしている。

「今回の事業により当館が入手するテキストデータは、「全文検索」という資料の発見を助けるための検索が主目的ですが、大規模データセットとしての
AI領域での活用や、視覚障害者等の方々の読み上げ利用への期待も高まっています。

LINE株式会社のこれまでの経験を活かして当館のデジタル化資料に最適化させたCLOVA OCRのテキスト化精度に期待しています」

>>国立国会図書館が保有するデジタル化資料 247万点・2億2300万枚超の全文テキストデータ化に「CLOVA OCR」が採用 | ニュース | LINE株式会社

なお、LINEによると、「今回テキストデータ化する資料は、国立国会図書館で広く一般に公開されているものであり、機密データ等は含まれていない」という。