Facebookが100言語を相互翻訳可能なシステムを開発、英語経由不要に

このエントリーをはてなブックマークに追加

Thumb-nail photo on ©Facebook

知らない言語の人が何を話しているのかボタン一つで分かるようになりつつある現代だが、まだまだ精度は完ぺきとは言えない。そんななか、Facebookは英語を介さない世界初とうたう自動相互翻訳システムを開発したと発表した。

M2M-100という新しい機械翻訳システム

今や世界中で月間27億人が利用しているとされるFacebookでは、ニュースフィード上で1日に約200億回も自動機械翻訳が実施されている。

これまでの機械翻訳は英語を中間言語としており、例えば、日本語から中国語に変換する場合は、日本語を英語に訳し、その英語をさらに中国語に訳すというクッションが発生していた。この方法でもある一定の翻訳精度は得られるが、やはりニュアンスの部分などがクッションを挟むことで変わってしまうことも多発していた。

そもそも、なぜ英語を介すのかという点だが、英語の言語データセットが豊富であるという点と、英語は言葉の区切りに空白を入れる「分かち書き」がしやすいため、自然言語処理に向いているという点があげられる。

しかし、Facebookのプラットフォーム上で投稿される言語数は約160言語に及び、その3分の2近くは英語以外の言語を使用している。

そこでFacebookは今回、英語を中間言語としない多言語機械翻訳システム「M2M-100」をオープンソースとして発表した。100の言語を100×100の組み合わせで縦横無尽に翻訳できるという。

翻訳精度をどうやって改善していくかが今後の課題

©Facebook

今回のモデルを構築するために用いられたデータ数は、100言語の75億文で、パラメーターの数は150億という膨大なものだ。それでも、まだ完璧な翻訳には至っていないため、人間の文化がどれほど広大か改めて驚かされる。

通常、教師データとされる翻訳データは人間の翻訳者から作成される。しかし、英語とマイナーな言語を翻訳する人は見つかるが、マイナーな言語同士の翻訳者はなかなか見つからないという。

そのため研究チームは、アイスランド語~ネパール語やシンハラ語~ジャワ語など、翻訳の必要性が統計的にまれな方向は避け、特定の言語データを収集するために「LASER(Language-Agnostic SEntence Representations)」という、多言語の文章を意味に基づいてマッピングするツールを利用した。

加えて、「逆翻訳」をすることで2言語間のデータセットを補足させる手法も提案している。例えば、中国語→フランス語への翻訳精度を上げたい場合、まずデータの多いフランス語の文を中国語へ翻訳する。そして、翻訳から得られた中国語のデータセットをフランス語へ翻訳することで、全体的な相互間の翻訳精度を上げるという仕組みだ。

さまざまな手法を組み合わせて実現した今回のモデルだが、まだまだ改善点も多いと感じる。

しかし、現状でも、某猫型ロボットのほんやくコンニャクはもうそろそろ実現するのかもしれないと思わせられるほど、画期的なシステムと言える。

GitHub

ニュースリリース