凸版印刷株式会社は、くずし字OCR(光学文字認識)に関するコンペティション「くずし字認識チャレンジ」の応募を募集開始した。本コンペティションは、株式会社SIGNATEが提供しているデータサイエンスプラットフォーム「SIGNATE」を活用する。募集期間は5月23日まで。
左:行領域認識部門、右:行内文字認識部門 出展:日本語古典籍くずし字データセット(一部改変)
本コンペティションのテーマは「行領域認識部門」と「行内文字認識部門」の2つ。各部門選考の結果、1位から3位の入賞者には賞金を贈呈する。選考結果公表は6月14日。
- (A)行領域認識部門:デジタルカメラなどで撮影した歴史資料を想定し、ページ画像から行領域を抽出する技術
- (B)行内文字認識部門:文字列を含む行画像を認識し、テキストシーケンスを出力する技術
本コンペティションではデータセットとして、『日本古典籍くずし字データセット』(国文学研究資料館ほか所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)を利用する。
凸版印刷は2021年から、同社のOCR技術を活用することで、古文書や古典籍など古文書や古典籍などくずし字で書かれた歴史的資料の利活用をサポートできるサービス「ふみのは」を提供している。これまでに多くの研究機関への導入が進んでおり、さらなる高度化、高精度化が望まれているという。
今後、凸版印刷はコンペティションの入賞技術を活用し、高精度なAIくずし字OCRエンジンを開発する。くずし字OCR技術開発で得られた技術・ノウハウを活用し、くずし字以外の特殊字形OCR技術の開発やBPO事業事務局業務へのAI-OCR展開など、DX(デジタルトランスフォーメーション)を実現する新規事業創出も目指すとしている。
>>ニュースリリース