凸版印刷、AIでくずし字を読解 90%以上の精度で認識

このエントリーをはてなブックマークに追加

凸版印刷株式会社は2月16日、くずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるサービス「ふみのはゼミ」を発表した。PCやタブレットなどのブラウザ上で動作し、90%以上の高い精度での文字認識を実現するという。

本サービスは、凸版印刷が2015年から研究・実証試験を実施してきたくずし字OCRを発展させ、凸版印刷総合研究所が開発したAI-OCRを導入したもの。

今回のAI-OCRは解読済みの古文書・古典籍から字形を採集し、くずし字の形をAIに学習させることで、AI-OCRを生成した。「ふみのはゼミ」の画面上で、解読したい範囲を指定するだけで、AIが学習した大量の画像から、文字の区切り位置も含めて解読できるという。

目視による解読と、AI-OCRによる文字認識の協調作業により、高い精度での解読を実現するとうたう。初心者から上級者まで練度に応じた方法で使用できる。目視による入力・校正の結果をAI-OCRへ再学習させることで、AI-OCRの精度はさらに向上するとしている。

「ジャパンナレッジLib」が提供するオンライン辞書・辞典の検索APIと連携し、「ふみのはゼミ」からジャパンナレッジの辞書を検索できる。文字を読むだけではなく、用例や背景を調べることで、内容の理解を促進するという。また、調べた用語を画面内にメモとして記録するクリップ機能も搭載した。

グループワーク支援機能は、参加者が編集している箇所をリアルタイムで表示し、編集結果をすぐに反映する画面共有機能や、参加者同士で自由に交流できるチャット機能を追加した。解読した文字や単語に対して質問やコメントを付けることも可能。講師への質問や参加者同士の交流がスムーズにでき、授業や各種イベント・ワークショップなどの活性化を促進するとのこと。また、授業やイベントでの利用を想定した、開始・終了の制御、採点機能なども搭載している。

2019年には、東京大学名誉教授のロバート・キャンベル氏が館長を務める大学共同利用機関法人人間文化研究機構 国文学研究資料館において、実証実験を実施。2020年度には、慶應義塾大学など4大学で、オンライン授業内での演習用システムとしての活用を試験的に開始している。今後は教育機関や研究機関などでの利用を想定した機能をさらに充実させるとした。

「この事業に期待を込めてエールを送りたい」

本サービスの発表に際して、国文学研究資料館古典籍共同研究事業センター長の山本和明氏、早稲田大学坪内博士記念演劇博物館 副館長の児玉竜一氏、慶應義塾大学 経済学部教授の津田眞弓氏がコメントを寄せる。

山本和明氏は「それ(30万点にもおよぶ古典籍の内容)を知りたいと願っても、残念なことに一部の人を除き、判読するすべがありませんでした。今回開発された支援システムは、当館がオープンにした字形データなども活用され、オンライン上で解読可能な仕組みと伺っています。研究者のみならず学生や一般の人々にも、先人の知を開放することにつながるもので、この事業に期待を込めてエールを送りたいと思います」と述べている。

──国文学研究資料館古典籍共同研究事業センター長 山本和明氏

「30万点にもおよぶ古典籍画像の公開を目指す国文研『歴史的典籍NW事業』は、くずし字で記された古典籍の全文テキスト化という壮大な夢の道半ばにいます。自然災害や感染症といった困難に直面する私たちには、参照すべき過去の記憶が、「記録」として今なお手付かずで残されているのです。

それを知りたいと願っても、残念なことに一部の人を除き、判読するすべがありませんでした。今回開発された支援システムは、当館がオープンにした字形データなども活用され、オンライン上で解読可能な仕組みと伺っています。研究者のみならず学生や一般の人々にも、先人の知を開放することにつながるもので、この事業に期待を込めてエールを送りたいと思います」

──早稲田大学坪内博士記念演劇博物館 副館長 児玉竜一氏

「コンピューターの力によって、くずし字を解読できる世が来るかもしれない。そんな話を初めて聞いたのは、前世紀の末のことでした。今やAIと手を携えながら学ぶことができる時代が本当に来ようとしています。

演劇の分野でも、特殊な字形で記される演劇資料の字形データベースから、AIによる類推を交えて、原資料のくずし字読解授業などを試みています。まったくの初学者や、留学生たちにも、抜群の教育的効果があり、時間さえあえば海外の友人とも共同で、原資料を共有したくずし字セミナーが開けそうです。

研究の進展や資料の充実にともなって、くずし字読解の必要性は古典籍のみならず、近代の書簡や自筆原稿の世界にも広がっています。既存のコンテンツをも縦横に活用した開放的なツールによって、古典籍やくずし字の世界の風通しがよくなればと願っています」

──慶應義塾大学 経済学部教授 津田眞弓氏

「近年注目されるAIでくずし字を読む試みが、いつどういう形で使えるようになるのか知りたいと考え、2019年に『ふみのはゼミ』を使った実験授業や、シンポジウムを実施しました。現状、この種の試みで最も効果を発揮するのが教育での利用のようです。

AIと一緒に学習することは、特に初学者の教育に効果がありました。『ふみのはゼミ』はオンラインで動き、辞書データベースの連携や採点機能と、教育ツールとして進化しています。コロナ禍での試用でも通常の授業より判読結果や報告の精度が高まりました。

国際的な共同授業なども視野に、くずし字を学ぶのが難しい状況下の学習希望者に役立つツールになることを切に希望します」

>>ニュースリリース