源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」

このエントリーをはてなブックマークに追加

「好き」という気持ちに勝るものはない。

何かを成し遂げた人物はその才能が注目されがちだが、人一倍「好き」という気持ちを持っていることが多い。カラーヌワット・タリンさんもそうだ。

ビデオ会議の背景は『源氏物語絵巻』。気さくで明るい人柄だが、古典のくずし字が読まれない日本の現状には不満をあらわにする。彼女からは古典文学が「好き」という気持ちがあふれ出していた。

タリンさんはタイの首都・バンコク出身。日本の古典文学に魅了され、大学院進学とともに1人で来日した。大学院での専攻は『源氏物語』の古注釈ながら、古典文学の魅力を少しでも多くの人に伝えるために、AI(人工知能)によるくずし字認識に取り組み始めた。

彼女が開発したくずし字認識スマホアプリ「みを(miwo)」はSNS上などで大きな話題になった。スマホやタブレットのカメラでくずし字資料を撮影し、ボタンを押すだけで、AIが1枚あたり数秒でくずし字を現代の文字に変換するアプリだ。精度は江戸時代の版本では約95%におよぶ。

彼女は2021年8月31日にROIS-DS人文学オープンデータ共同利用センター(CODH)国立情報学研究所(NII)を退職し、9月6日にグーグル合同会社 AI開発部門 Brainチームのリサーチ・サイエンティストとして入社した。

「異色の経歴」という言葉があるが、タリンさんほどこの言葉がふさわしい人物は存在しないだろう。何が彼女を突き動かしているのか。

「子どもの頃、友だちによく『日本マニア』と言われていました」

タリンさんは子ども時代を振り返ってそう言う。

くずし字が読めず成績が「F」になって泣いた

「どちらかと言うと、オタクタイプの子どもでした。あんまり外で遊ばず、自分の興味があるものはすごく興味があるものの、興味がないものにはまったく興味を持てなくて……」

当時、彼女を魅了したのはなにより日本文化だった。マンガやアニメより、食べ物や着物など日本文化全般に興味があった。10歳頃から父に言われてプログラミング教室に通う傍ら、日本語に関する本を買い、独学で日本語の勉強も始めた。

日本の古典文学に興味を持ったのは、タイの大学で日本語学科に通う学生時代に『あさきゆめみし』に出会ったことがきっかけだ。漫画家の大和和紀さんが紫式部の『源氏物語』全54帖を忠実に漫画化した作品である。

「当時の日本文化が好きなので、心を動かされたのは背景設定です。物語や登場人物より、着物や年中行事など、いろんな背景に興味を持ちました」

「日本マニア」だった子ども時代から日本文化全般への興味は変わらなかった。『あさきゆめみし』を何度も何度も読み直し、大学院で『源氏物語』を研究することを決意した。

2008年4月に1人で来日し、文部科学省の国費外国人留学生の奨学金で、早稲田大学の大学院に通い始めた。科目履修生2年、修士2年、博士6年。あわせて10年間、完全に「文系大学院生」としての生活を送った。

「くじけそうなことは数え切れないほどありました。くずし字を読もうとするだけで精一杯でした。ほかのことをする余裕はなかったです」

まわりには韓国人や中国人の留学生もいたが、ほとんどが日本人の学生だった。自分だけが古文や漢文を理解できなかった。ほかの人の研究を追いかけるだけで大変だった。

最悪の挫折は修士1年生の頃、文献研究の授業の期末試験で出題された和歌の資料にあるくずし字が読めず、成績が「F」だったことだ。

「ショックで落ち込んで、学校で友だちとすごく泣きました。今でも記憶に残っています。でも、この分野で研究している限り、くずし字は読めなければいけません」

彼女は持ち前の負けん気を武器に、書道教室でかな書道を習いはじめた。自分自身でくずし字が書けたら、絶対に読めるようになると考えたからだ。次第に書道をしながらくずし字の読み方を身につけ、書道の四段を取るまでに上達した。

くずし字認識がやりたくて東大の先生に手紙を書いた

大学院生活は就職や収入など、最後の最後まで悩みが尽きなかった。ついに10年目になり、間もなく卒業が迫っていた。

その頃、自分は本当に何をやりたいのかを真剣に考え始めた。彼女の専門である古注釈の研究では、古典の資料をコピーして1枚1枚確認して翻刻(くずし字から現代文字に変換)するのが一般的だ。

『源氏物語』は全54帖あり、1度の資料調査だけでコピー用紙が数百枚から数千枚になる。1枚1枚を確認しながら、注釈を探し出すのは大変な作業だった。この作業を機械化できたらどれほど楽になるだろう?

プログラミングは経験があるとはいえ、10年以上も離れていた。Googleで検索したところ、機械学習をするためには一定の性能を持つGPUを積んだパソコンが必要だとわかった。偶然にも、奨学金の同期で、東京大学で画像処理の研究をしているタイ人の友人がいた。タリンさんは彼女の指導教員に手紙を書いた。

「手紙を書いたとき、すごく怖かったです。変な人が来たと思われたり、本当にできるのかと思われたりして、断られたたらどうしようと。だけど、断られても自分はスタート地点に戻るだけで、何も損することはないと思いました」

東大の先生に詳しい状況を説明すると、研究室の特別交流学生として受け入れてくれることになった。スタート地点に戻るどころか、目標に向けて大きく前進した。しかも、早稲田大学と東京大学には交換学生プログラムがあった。

「多くの学生には必要がないし、文系と理系の違いもあるので、あまり知られていないプログラムです。書類を出したとき、早稲田の事務所の人たちは『え? なんで』と大混乱していました」

彼女の人生はまさに前人未到だった。しかし、ここでも彼女の「好き」という気持ちは揺るがなかった。半年間、機械学習の勉強を続け、毎日朝から晩まで研究室に通った。

半年以上休まずくずし字認識アプリの開発に明け暮れた

くずし字認識を始めた頃は仕事や将来についてあまり考えていなかった。ただくずし字認識に取り組み、給料を得られるところで働けたら良いなとぼんやり思っていた。幸運にもその願望はかなった。

「ちょうどCODHがくずし字認識の研究者を募集していて、面接で『くずし字認識を研究していますが、まだうまくできていない』と正直に伝えたら受かりました。研究室探しも就職も運が良く、いろんな幸運が重なったと感じています」

KuroNetくずし字認識サービス(KuroNet Text Editor)

彼女はまず日本古典籍くずし字データセットを用いたAIくずし字OCR(光学文字認識)サービス「KogumaNet(コグマネット)」「KuroNet(クロネット)」の開発を手がけた。

古文の翻字には専門家でも1枚あたり約10分はかかるが、これらのAIでは1枚を約1秒で解読できる。書物にもよるが、1時間あれば1冊を翻刻可能だ。古注釈の研究が大変だから検索の部分を機械に任せたい。彼女の理想は少しずつ現実のものになっていった。

「4分でわかる「みを」アプリの使い方」

次に開発したのが話題のくずし字認識スマホアプリ「みを」だった。

「みを」は『キテレツ大百科』に登場する「神通鏡(じんつうきょう)」に着想を得て、開発を決めた。発明道具の設計図をまとめた冊子「奇天烈大百科(きてれつだいひゃっか)」は一見すると何も書いてないようだが、「神通鏡」というメガネをかけることで、文字が浮かび上がってくる仕組みだ。

日本人にはくずし字の前には「大きな壁」が立ちはだかっている。現在、くずし字をきちんと読める人は日本の人口のたった約0.01%、約数千人しかしない。現存するくずし字資料は古典籍が300万点以上、古文書は個人の日記や手紙などを含めると1億点以上におよぶ。

「この壁をちょっとでも超えられるような道具があれば、原文、とくにくずし字資料に触れる機会が多くなるかもしれない。くずし字を読めない人が多いならば、読めるような状況にすれば良い。そう思って開発を決めました」

タリンさんはインターネットのオンラインコースでスマホアプリの開発について勉強を始め、半年以上休みなく開発に明け暮れた。さまざまな機能を追加したいと思えば思うほど、開発は複雑になっていった。

脳裏には大学院時代にくずしが読めず挫折した経験があった。上級者向けにもさまざまな機能を搭載したが、初心者向けにはくずし字学習を手助けするため、AIの認識結果に対応する元画像の領域を切り抜き、認識結果と字形を比較できる機能を追加した。

「みを」は『源氏物語』第14帖「みをつくし」にちなんだ名前だ。「みをつくし」は「みを(船の水路)」を示すために立ててある杭(くい)を指す。「みをつくし」が人々の水先案内となるように、「みを」がくずし字資料を読むための道案内になることを目指した。

国文学研究者たちの厳しい意見に悩まされた

新たな目標に向けて突き進む一方で、悩まされたのは国文学研究者たちの厳しい意見だった。

「『AIによるくずし字認識は望ましくない』『こんな研究は良くない』という国文学研究者が何人かいました。古典文学を広めようと頑張っているのに、自分が所属する分野の人たちに反対されるのはつらいです」

開発中に何度も沈んだ気持ちになった。それでも、くじけそうな気持ちより古典文学が「好き」という想いと、その魅力があまり伝わっていない日本の現状を変えたいという気持ちのほうが勝った。

「SNS上で高校の教育に古文・漢文は必要ないという意見をよく目にします。だけど、高校のときに古文・漢文が必要ないと言ったら、人生でいつ勉強するんですか。大抵の日本人は大学に入ったら、古文・漢文に触らなくなります。本屋さんには古典文学の本はたくさん売っていますが、古典文学、とくに原文を読もうとする人は少ないのではないでしょうか?」

気さくで笑顔が絶えない彼女の顔がちょっとだけ曇った。日本にはこんなに良い古典がたくさんある。古典を忘れないで。古文・漢文を勉強して。国内外の講演でいつもそう訴えている。古典文学への想いがあふれ出してきた。

彼女は現状を変えるために、自分だけを信じて「みを」の開発に没頭した。間もなくグーグルへの転職が迫っていた。それまでにアプリのリリースを間に合わせたかった。

いよいよリリースの日がやって来た。ダウンロード数はリリースから48時間以内にiOSとAndroid両方で約1万1000件を超えた。彼女の予想を大きく上回る数字だった。

「家にある掛け軸が読めず、でも勉強する時間がとれずで悩んでいたので早速DLしてつかわせていただきました。やっと長年のもやもやがすっきりしました! 無料なので、子どもたちの勉強にも安心して使えるのもとてもありがたいです」

SNS上でタリンさんに寄せられたコメントだ。彼女の研究は日本人の心をほんの少しずつ、しかし確実に動かし始めた。

古典文学が「好き」という気持ちは揺らがなかった

子ども時代は「日本マニア」と言われたとタリンさんは語っていた。そんな彼女はなぜここまでやって来られたのか。

確かに、彼女自身が言うとおり、運は良かった。子ども時代に父に言われてプログラミングを始め、奨学金を受け取って来日できた。東大の研究室に入り、就職も決まった。多くの場面で彼女は恵まれていたと言える。しかし、本当にそれだけなのか。

大学時代に『あさきゆめみし』に出会い、タイから日本に1人で留学。くずし字が読めなくて、かな書道を始めた。くずし字をもっと多くの人々に届けるためにAIを身につけた。逆境に打ち勝てるように、何かが彼女を突き動かしているように思える。

「負けず嫌いなところはありますが、それだけではないですね。1つ言えることは古典や写本が『好き』ということです。たぶん、本自体が『好き』なんだと思います。博物館に行っても文字があるものには興味が湧きますが、文字がないものにはさほど興味が湧きません」

答えはシンプルだった。早稲田の大学院で『源氏物語』の研究しているときにも、東大の研究室でくずし字認識の勉強を始めるときにも、何度も何度も悩んだ。今でも自分と同じ分野なのに、一部の文学研究者に批判されてくじけそうな気持ちになることもある。でも、古典文学が「好き」という気持ちはずっと揺るがなかった。今、彼女の想いは日本人の心を少しずつ動かし始めている。

「一言で言うと、たぶん『好きだから』ですね」

彼女はまた気さくに笑いながらそう言った。