AI企業が考察するGoogle翻訳超え機械翻訳「DeepL」のスゴさ

このエントリーをはてなブックマークに追加


1ヶ月ほど前からSNSで話題なのが、「Google翻訳」超えの機械翻訳「DeepL(外部サイト)」だ。話し言葉はもちろんのこと、難解な方言も自然に翻訳する。

今回は、Ledge.ai編集部で自然言語処理に強みを持つストックマーク社のエンジニアにヒアリングし、DeepLは何がスゴイのか?を考察した。

DeepLができること、できないこと

口語に強い

Google翻訳は口語文の訳出は得意ではなく、くだけた口語訳には限界がある。対してDeepLは、難易度が高いと思われる口語文に対し見事な翻訳を返しており、圧巻だ。

方言もたしなむ

関西弁だけでなく、津軽弁などクセのある方言まで精度良く翻訳できることで大きな話題になっている。

  • 津軽弁
    「わ、なのこと好きなんず」
    「べらぼうめ!

  • 博多弁

  • 関西弁

ニュアンスを含んだ翻訳もこなす

機械翻訳においては、文字の羅列から言外のニュアンスまで解釈し翻訳するのは難しいとされてきた。しかし、DeepLは話し手の意図も汲み取り翻訳できる、という点でも高い評価を受けている。

しかしながら精度は翻訳対象とするジャンルによっても左右されるようで、Google翻訳に対して優劣はつけ難いところはあるものの、ほとんどの場合において驚くほどの精度を見せている。

  • ニュアンスを含んだ翻訳(強意等)

うまくいかなかったもの

ここではDeepLがあまり得意でなかった例文を紹介し、後半の考察につなげる。

  • 「リンカーンは何番目の大統領ですか?」


    大統領が任期制であるという一般常識がないと正しく訳せない文章であり、その特徴が出ている。

  • 「コロンブスは何人ですか?」「大人気ない人たち」
    “なにじん”を“なんにん”、“おとなげない”を“だいにんきない”と読み間違えて翻訳している。構文解析に用いるparserの問題で意図通りに分割されていない可能性がある(大/人気/ない と区切られてしまっている)。

  • Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo


    同音異義語、同音異字による有名な難解文を解析した結果、文の終わりが分からずループしている。これは前時刻のhidden stateを利用して出力を生成する、LSTMなどのアルゴリズムの特徴が出ているといえる。

  • 独→日で翻訳した場合に英語の翻訳誤りが影響する


    シジュウカラ(great tit)を”いいおっぱい”としてしまう翻訳誤りが独→日にも影響している。

  • 日→英→日と再翻訳した際、原文に存在しなかった顔文字が出現する


    本来、日本語の顔文字は英語に対応となる概念が存在しないはずだが、対訳文として出力されている。

DeepLの特徴を考察

以上の特徴から、DeepLの特徴を以下に簡単にまとめた。まず、翻訳技術としてGNMT(Google Neural Machine Translation)のようにひとつのモデルで翻訳をすべて行っている場合と、中間言語を利用している場合が考えられる。

参考リンク:
Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System
Pivot-based Transfer Learning for Neural Machine Translation between Non-English Languages

「シジュウカラ」の日独翻訳において英語起因らしき翻訳誤りが発生しているところから察するに、中間言語として英語を利用したモデルを構築していることが考えられる。

  • SNSなどのサイトをクローリングし、学習データとして活用している
    翻訳結果にネットミームが現れることや、方言や口語文の翻訳精度が高いことから、コミュニケーションが発生するようなサイトから大量のテキストを取得しているものと考えられる。

  • 今のところ、最近のモデルに共通する特徴を持っているということ以上に具体的なことは言えない
    Recurrentなモデルの特徴である前時刻のhidden stateを利用していることがBuffaloのループでわかっており、最近の技術流行からしてもLSTMのtransformerベースなのではないかと考えられるが、想像の域を出ない。

DeepL社の真の優位性

結論を言えば、何かぶっちぎりでエレガントなAIモデルを構築できたというよりは、独自の対訳文検知クローラーに真の競争優位がありそうだ。つまり、訓練データを集めるエンジンと、集められた訓練データが真の競争優位ということになる。

DeepLの前身はLingueeというサービスだ。Lingueeでは対訳文がペアとして自動で収集されており、たとえば「不動産契約」などと検索すると、以下の日英翻訳ペアが自動でヒットする。

参考:
サンキョウの決算書日本語版
サンキョウの決算書英語版

「ひとつめのリンクの英語翻訳が、ふたつめのリンクである」という情報はGoogleも保持できていないはずだが、Lingueeのエンジンではこれらが対訳ペアであると自動検知し、良質な正解データの確保できることが競争優位性となっていると考えられる。

また、もうひとつの競争優位性として、対訳文が存在しない文章についても、そのデータを適切に利用して学習を行っていることが考えられる。その特徴が出ているのが「日本語の顔文字」が出現するケースだ。対訳文が存在しない文章を利用し、何らかの方法で英語言語モデルと対応させて学習を行っている、と考えられる。

DeepLの飛躍的な翻訳精度の高さが物語るのは、たとえベンチャー企業であっても良質な学習データを集めることと、学習モデルを作るための工夫ができれば、GAFAなどのテックジャイアントも超えるサービスを提供できる可能性があるということだ。

データが競争優位性になるのは当然のことながら、データを集めるエンジンも非常に重要だ。データだけでなく、データを集めるエンジン、そしてそれらを学習させるアルゴリズム。またそれだけでなくこれらを組み合わせ顧客にしっかりとサービスを提供できるインフラやUI/UXなど、“総合格闘能力”が試される自然言語処理の世界は、今後ますます競争が激化していくだろう。

執筆協力:ストックマーク株式会社