1年以上前に、Ledge.aiで扱った下記記事。
>> 認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた
その精度の高さや、開発スピード。日本語がわからなくても、日本語手書き文字認識のシステムが作れるの!? などなど、いろいろな切り口で非常に多くの反響をいただきました。
当時見せていただいたのはあくまで初期開発の段階だったのですが、ついにリリースされることに。APIでの提供ということでディベロッパーの方々にも使っていただけるようになっています。
今回は『Tegaki』という名前もついた日本語手書き文字認識のプロジェクトの進化や価格帯に至るまで、13億調達したことでも話題になっているコージェントラボ Sales Directorの山田さんと、AI ArchitectのDavidに根掘り葉掘り聞いてきました。
精度の向上だけでなく例外文字にも対応。大きな進化を遂げた『Tegaki』
―いよいよリリースですね。進化した部分について伺ってもいいですか?

Tegakiを公開できることになり、非常に嬉しく思います。
前回取材頂いたときと比べて大きく進化しています。実は今後の学習性や拡張性も考えて、まるっとアルゴリズムを変えました。
そしてもちろん、当時とくらべて精度も大きく向上しています。
ということで、見せていただいたのが下の文章。

※パーセンテージはこの文章での正答率
少し見にくいかもしれないですが、日本人のスタッフ5人で江戸川乱歩の文章を手分けして書いた文章が左側。右側がその文章をTegakiで解析した結果となっています。
1人の筆跡だけだと「その人の文字がたまたま読みやすかっただけじゃない?」なんてツッコミも入りそうですが、5人それぞれの筆跡を高い精度で認識できていることがわかります。
アンケート用紙や問診表、申し込み用紙などのデータのデジタル化はすんごく効率化できるのではないでしょうか。
ちなみに、Tegakiってこの場で使えたりとかしない……ですよね?

実際に使ってみますか? すぐ使えますよ。
ぜひに! ということで文章を書かせていただき、システムで読み込むこと数秒。結果として出てきたのが下の画像です。

左がLedge編集部で書いた手書き文字。右側が出力結果と確からしさ。
※APIサービスになるため、画面はあくまでデモ用のもの
ちゃんと読み取れてる……!
結構雑に書いたつもりだったんですが、非常に高い精度で認識ができていることがわかります。なんだか感動してしまいました。
特徴的なのは、確度がほぼリアルタイムでわかるようになっている点。これもTegakiの強みなんだそう。
とはいえども、現場でTegakiを導入したとしても、全ての業務をシステムに任せっぱなし……というフローにはすぐにはならないはず。なので、最終的には人が判断することになると思うのですが、どの部分に間違えがありそうなのか、システムが教えてくれることでだいぶチェックの工数も減りそうです。

また、チェックボックスや丸囲み文字、小さい文字などについても学習を重ねて、そういった例外の場合でも高い認識率を維持できているようにもなっています。
確かにアンケート用紙や、問診票、申し込み用紙などの手書き文字認識が必要なケースでは、一文字一文字書く欄がボックスで組まれていたり、チェックボックスが用意されていたり。活字をただ読み取るのとは違い、特殊なケースも多いですもんね。
ユースケースを考えて、このあたりもしっかり対応されているのをお聞きし、本当に現場の課題を解決できるシステムになっているな……と感心しっぱなしです。
手書き文字だけでなく、活字や“strange漢字”まで

引き続き、手書き文字のトレーニングは続けているんですけど、非常に高い精度で活字も認識できるようになりました。
面白いことに、活字データは学習させてないんですけど……。
なんと。。
これがディープラーニングのすごいところでもありブラックボックスなところ。
驚くことに、いま現在ある他の活字の文字認識システムと比べても、Tegakiの活字認識率は高いんだそうです。
活字への本格的なトレーニングはこれから。とおっしゃられてましたが、すでに高い精度を誇っているのに、どこまでの精度になってしまうんでしょう……。

活字が認識できるようになったこともおもしろいんですが、学習を進めていくうちに、今までの画像認識では、読めなかった大きく崩れた“strange漢字”も読み取れるようになりました。これも結構おもしろいですよ。
といって見せてくれたのは、意図的に大きく崩した「亀」の文字。確かに人間が見れば認識できますが、今までの画像認識技術ではハードルが高そう……。
これは極端な例ではありますが、ここまでTegakiでは認識できるとのこと。
なんだか驚かされてばかりですが、ここまでできるようになってやっと「ビジネスで使える」というレベルなのかもしれませんね。
API開放! システムが作れない企業もテンプレートメーカーで安心
―すごいですね……。自分でも組み込んでみたりしたいのですが、プロダクトはどのような形で提供していくんですか?

APIでの提供になります。なので、皆さんに使っていただけますよ。
ディベロッパーやいろんな方にTegakiを使っていただいて、世の中に役立つサービスが出せていければCogent Labsとしても嬉しいと思っています。
API開放! これは非常に嬉しいニュースです。活字も読めるということで、いろいろな活用方法が考えられますね。
APIという形での提供ですが、それぞれの企業で使い方が違うので、システムだとかUIだとかはそれぞれの会社が作ったほうがいい……という背景も。
確かに、システムをがっちり作っていろいろな機能に対応していくよりは、それぞれの企業で作ってもらった方がいいのかもしれません。

一方で、自前でシステムを作り込めない……という企業も簡単に使えるように、Tegakiのサービスの一部として帳票読み取り部分の指定は、ブラウザ上で動作するテンプレートメーカーという機能も提供します。
このテンプレートメーカーの機能は、APIの使用料金の中に含まれています。
ROIが計算しやすいようなシンプルな料金設計
―一番気になるのは価格なんですが……どんなもんでしょう?

プロダクトの使用料を決める際に、いろいろな企業に伺って、月に何枚ぐらいの用紙を何人が、一枚あたりどの位の時間をかけて手書き文字入力をしていて……ということを徹底的に調べました。
といって見せていただいた費用はすごくシンプル。APIについての使用料金ではなく、データ化するフィールド単位の料金になっています。
気になるコスト削減効果ですが、シングルライン10文字(ひらがな5文字、カタカナ5文字)の場合、人による入力は17.6円〜のところ、Tegakiでは1円以下と、およそ94%のコスト削減を実現しているそう。
もちろん、人によるチェック工数もあるので、94%まるまるカットできるわけではないですが、企業やワークフローによって一概には言えないものの人件費を30-40%カットできるようなケースもあるんだそう。すごい数字ですね……

APIを何回叩いたらいくら……という表現は、ディベロッパーサイドからすればわかりやすいとは思うんですが、ビジネスサイドの人からすると少しイメージがつきにくいと思っています。
誰でもすぐに理解ができて、ROIも少しでも計算しやすいようにシンプルな料金設定にしました。
Tegakiでは、いくつかのプランを用意しているそう。読み込むタイプについても金額は変わるそうですが、スタンダードタイプは月額20万円(20万円分のデータ化費用含む)からで、1フィールドはボックスキャラクター0.2円、シングルライン0.8円という価格設定。人が入力する工数から考えると非常に安価ですよね。
気になる方はぜひTegakiのプロダクトページからお問い合わせいただければ、と思います。
向き合うべきは、その技術で何が解決できるか
まずはAPIとして提供で多くの方々に使っていただきつつ、Cogent LabsとしてTegakiのWebサービスのリリースも可能性があるそう。
Cogent Labsがどんな形でTegakiを見せてくれるのか。こちらも非常に楽しみです。
デモの段階からLedgeが追ってきたプロダクトが、ついに一般にリリース! というだけでもなんだかテンションあがりますが、それ以上に「ビジネスの課題をテクノロジーで解決する」という定石をストレートに体現しているこのTegaki。
AIだとか、チャットbotだとか。バズワードのようになってしまっていますが、本当に向き合うべきは「その技術で何が解決できるのか?」ですよね。
しっかり向き合っている企業やサービスはやっぱり強いし、ユーザーからも愛される。そんなことを改めて考えさせられる取材となりました。
山田さん、David。お忙しい中、ありがとうございました。