1ヶ月ほど前からSNSで話題なのが、「Google翻訳」超えの機械翻訳「DeepL(外部サイト)」だ。話し言葉はもちろんのこと、難解な方言も自然に翻訳する。
今回は、Ledge.ai編集部で自然言語処理に強みを持つストックマーク社のエンジニアにヒアリングし、DeepLは何がスゴイのか?を考察した。
DeepLができること、できないこと
口語に強い
Google翻訳は口語文の訳出は得意ではなく、くだけた口語訳には限界がある。対してDeepLは、難易度が高いと思われる口語文に対し見事な翻訳を返しており、圧巻だ。
DeepLを試す。 pic.twitter.com/DJsuFF9uMZ
— kilometer (@kilometer00) March 23, 2020
方言もたしなむ
関西弁だけでなく、津軽弁などクセのある方言まで精度良く翻訳できることで大きな話題になっている。
- 津軽弁
「わ、なのこと好きなんず」
「べらぼうめ! - 博多弁
ドイツ翻訳ツールDeepLに
私が最近習得したばかりの
北九州福岡地方の方言、博多弁を
テストとして翻訳させてみたが
完璧としか言いようがないのです
対照組としてGoogleにも翻訳させた
第二の例文は半分正解だけど
他は全滅だった
方言まで的確に翻訳できるとは
いつそれに超えれれるか興奮した! pic.twitter.com/cs7IBXCEyn— RYOYU KAN@Avenger Dairy (@RyoYuKanAverger) March 24, 2020
- 関西弁
DeepLでガバガバの関西弁をめちゃくちゃ綺麗に翻訳されてぶったまげてる pic.twitter.com/vVTYR6NIzp
— むるわか (@multipleniwaka) March 22, 2020
ニュアンスを含んだ翻訳もこなす
機械翻訳においては、文字の羅列から言外のニュアンスまで解釈し翻訳するのは難しいとされてきた。しかし、DeepLは話し手の意図も汲み取り翻訳できる、という点でも高い評価を受けている。
しかしながら精度は翻訳対象とするジャンルによっても左右されるようで、Google翻訳に対して優劣はつけ難いところはあるものの、ほとんどの場合において驚くほどの精度を見せている。
- ニュアンスを含んだ翻訳(強意等)
これは…!
彼は誰を殺したんだ…! pic.twitter.com/RL7oyNX8pj— アラレちゃん15号 (@arare15_phase3) March 22, 2020
いくつか試したけどこれは確かに精度高いかも。
めちゃくちゃ精度が高いと話題の機械翻訳「DeepL翻訳」に日本語の翻訳機能が登場したので実際に使ってみた – GIGAZINEhttps://t.co/Ns2J3Sjk56
— sogitani / baigie inc. (@sogitani_baigie) March 27, 2020
うまくいかなかったもの
ここではDeepLがあまり得意でなかった例文を紹介し、後半の考察につなげる。
- 「リンカーンは何番目の大統領ですか?」
DeepLの翻訳が優秀と聞いたので、毎回チェックに使っている「リンカーンは何番目の大統領ですか?」の日英翻訳をしてみた。やはりこれは難しいらしい。https://t.co/YmPFeXaIvI pic.twitter.com/2D82MKhgBS
— シータ (@Perfect_Insider) March 22, 2020
大統領が任期制であるという一般常識がないと正しく訳せない文章であり、その特徴が出ている。 - 「コロンブスは何人ですか?」「大人気ない人たち」
“なにじん”を“なんにん”、“おとなげない”を“だいにんきない”と読み間違えて翻訳している。構文解析に用いるparserの問題で意図通りに分割されていない可能性がある(大/人気/ない と区切られてしまっている)。 - Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo
対応できなかった&暴走した。 pic.twitter.com/iMVJykLwZL
— Kenji Iguchi (@needle) March 23, 2020
同音異義語、同音異字による有名な難解文を解析した結果、文の終わりが分からずループしている。これは前時刻のhidden stateを利用して出力を生成する、LSTMなどのアルゴリズムの特徴が出ているといえる。 - 独→日で翻訳した場合に英語の翻訳誤りが影響する
シジュウカラ(great tit)を”いいおっぱい”としてしまう翻訳誤りが独→日にも影響している。 - 日→英→日と再翻訳した際、原文に存在しなかった顔文字が出現する
なんか最近噂のDeepLって翻訳ツールにアッシュの文章入れてみたけど上手く翻訳出来なかった……なんで
一枚目が原文、二枚目が英語で三枚目再翻訳す!!! pic.twitter.com/NVTHMxPSh7— 獣炎槍・魔真神街 「すばらしきアッシュ」連載中!!!!! (@FlamebeastLance) March 23, 2020
本来、日本語の顔文字は英語に対応となる概念が存在しないはずだが、対訳文として出力されている。
DeepLの特徴を考察
以上の特徴から、DeepLの特徴を以下に簡単にまとめた。まず、翻訳技術としてGNMT(Google Neural Machine Translation)のようにひとつのモデルで翻訳をすべて行っている場合と、中間言語を利用している場合が考えられる。
参考リンク:
Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System
Pivot-based Transfer Learning for Neural Machine Translation between Non-English Languages
「シジュウカラ」の日独翻訳において英語起因らしき翻訳誤りが発生しているところから察するに、中間言語として英語を利用したモデルを構築していることが考えられる。
- SNSなどのサイトをクローリングし、学習データとして活用している
翻訳結果にネットミームが現れることや、方言や口語文の翻訳精度が高いことから、コミュニケーションが発生するようなサイトから大量のテキストを取得しているものと考えられる。なんか最近噂のDeepLって翻訳ツールにアッシュの文章入れてみたけど上手く翻訳出来なかった……なんで
一枚目が原文、二枚目が英語で三枚目再翻訳す!!! pic.twitter.com/NVTHMxPSh7— 獣炎槍・魔真神街 「すばらしきアッシュ」連載中!!!!! (@FlamebeastLance) March 23, 2020
- 今のところ、最近のモデルに共通する特徴を持っているということ以上に具体的なことは言えない
Recurrentなモデルの特徴である前時刻のhidden stateを利用していることがBuffaloのループでわかっており、最近の技術流行からしてもLSTMのtransformerベースなのではないかと考えられるが、想像の域を出ない。
DeepL社の真の優位性
結論を言えば、何かぶっちぎりでエレガントなAIモデルを構築できたというよりは、独自の対訳文検知クローラーに真の競争優位がありそうだ。つまり、訓練データを集めるエンジンと、集められた訓練データが真の競争優位ということになる。
DeepLの前身はLingueeというサービスだ。Lingueeでは対訳文がペアとして自動で収集されており、たとえば「不動産契約」などと検索すると、以下の日英翻訳ペアが自動でヒットする。
「ひとつめのリンクの英語翻訳が、ふたつめのリンクである」という情報はGoogleも保持できていないはずだが、Lingueeのエンジンではこれらが対訳ペアであると自動検知し、良質な正解データの確保できることが競争優位性となっていると考えられる。
また、もうひとつの競争優位性として、対訳文が存在しない文章についても、そのデータを適切に利用して学習を行っていることが考えられる。その特徴が出ているのが「日本語の顔文字」が出現するケースだ。対訳文が存在しない文章を利用し、何らかの方法で英語言語モデルと対応させて学習を行っている、と考えられる。
DeepLの飛躍的な翻訳精度の高さが物語るのは、たとえベンチャー企業であっても良質な学習データを集めることと、学習モデルを作るための工夫ができれば、GAFAなどのテックジャイアントも超えるサービスを提供できる可能性があるということだ。
データが競争優位性になるのは当然のことながら、データを集めるエンジンも非常に重要だ。データだけでなく、データを集めるエンジン、そしてそれらを学習させるアルゴリズム。またそれだけでなくこれらを組み合わせ顧客にしっかりとサービスを提供できるインフラやUI/UXなど、“総合格闘能力”が試される自然言語処理の世界は、今後ますます競争が激化していくだろう。
執筆協力:ストックマーク株式会社