転校生を「テンコウナマ」と誤読しないように、読み仮名エンジン改良で99.98%の高精度化

このエントリーをはてなブックマークに追加

クリスタルメソッド株式会社は8月20日、形態素に分解した日本語に読み仮名を振るエンジン「かな振りAPI」の解析に使う辞書情報を改良した。形態素ごとに換算すると、99.98%の高精度化に成功したという。

従来の形態素解析による読み仮名エンジンでは、コンピュータが文章を解析するときに、読み仮名や単語の区切りが曖昧なことがあり、実際に人間が読む文章とは異なることがある。日本語をすべて平仮名で表すと、文の曖昧性が非常に高くなる。

今回、同社は文章のカタカナ読みを予測するのに特化したAI(人工知能)を使用し、解析に使う辞書情報を自社AIで改良して作成した。これにより、文章に出てくる単語をより高精度に区切り、とくに読み仮名を選択する精度が格段に上がったという。

文章の内容によって「今日」という単語を「きょう」ではなく「こんにち」と読めるようになるなど、とくに読み間違えやすい語も文章の流れからAIが読み方を推測して、適切な読み仮名を付けられるようになった。

「的:マト/テキ」のように、複数読み方がある単語に対して、どれほど適切な読みを選択できるか検証したところ、他社APIは46%の確率のところ、同社の読みエンジンは73%と、他社より27%高い確率で適切な読みを選択できたとしている。

たとえば、「転校生の精いっぱいのパフォーマンス。」は、他社APIでは「テンコウ/ナマ/ノ/セイイッパイ/ノ/パフォーマンス。」と読み間違えるが、同社の読みエンジンでは「テンコウセイ/ノ/セイイッパイ/ノ/パフォーマンス。」ときちんと読める。

「下今市駅―鬼怒川温泉駅間」は、他社APIでは「シモ/イマイチ/エキ/ー/エヌガワオンセン/エキ/カン」と読み間違えるが、同社の読みエンジンでは「シモイマイチエキ/ー/エヌガワオンセンエキ/カン」と一単語として読み込める。

「部屋を出て、そのすぐ後」は、他社APIでは「ヘヤ/ヲ/デ/テ/、/ソノ/スグ/ゴ」と読み間違えるが、同社の読みエンジンでは「ヘヤ/ヲ/デ/テ/、/ソノ/スグ/アト」ときちんと読める。

>>ニュースリリース