BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleのニューラルマシン翻訳システムが実現するゼロショット翻訳

Googleのニューラルマシン翻訳システムが実現するゼロショット翻訳

原文(投稿日:2017/01/31)へのリンク

Googleは昨年末,機械学習をGoogle翻訳サービスに適用した結果として,“ゼロショット”翻訳が可能なニューラルネットワークを構築したことを発表した

ゼロショット翻訳とは,明示的なトレーニングやマッピングの存在しない2つの言語のフレーズを翻訳するものだ。トレーニングされたニューラルネットワークは,それまで対応のなかった言語とフレーズを翻訳するパスとしてのインターリングア(interlingua)の存在を証明して研究者たちを驚かせた。彼らはその新システムのデータを可視化し,言語間の共有的な意味表現,あるいはインターリングアの存在に関する初歩的な証拠を確認した。この結果が,より効率のよい独自の翻訳手順を自分自身で生成可能なニューラルネットワークの存在を実証することになったのだ。

10年以上に及ぶGoogle翻訳の発展により,サポート言語は当初の数カ国語から103カ国語にまで拡大され,1日あたり1,400億以上の言語翻訳を実行するに至っている。翻訳の精度と効率の向上のためにニューラルネットワークの実装を行なう動機となったのは,他の分野における数多くのニューラルネットワークの成功例だ。

調査結果から明らかになった大きな疑問は,ペアリングされていなくても二次的なパスが存在する言語間の翻訳が可能なのか,という点だ。英語から韓国語,韓国語から日本語のパスが存在する場合において,英語から日本語を推論するようなケースである。

エンコーダとデコーダ,アテンションを含んだ翻訳のコアモデルを変更しなくても,このモデルを実装することが可能だ,とチームは主張する。GNMT(Google Neural Machine Translation)に関する詳細な説明からは,ターゲット言語の推測のためにデコーダに渡される単語のエンコードに,双方向リカレントニューラルネットワークを使用していることが見て取れるものの,先日の研究発表からは,このモデルとゼロショット翻訳モデルとの類似点と相違点が何であるかは即座に判断できない。GoogleはGNMTについて,次のように説明している。

... Googleのフレーズベースの現行システムに比較して,翻訳エラーを平均60%低減します ... WMT’14の英語からフランス語,英語からドイツ語へのベンチマークでは,最先端の競合性能を達成しています。独立した単純な文章を人手による翻訳とサイド・バイ・サイドで突き合わせた結果では,Googleのフェーズベースの運用システムに比較して,翻訳エラーを平均60%低減しました。

入力された単語はソース言語ではなく,ターゲット言語でタグ付けされる。これについてGoogleは,次のように述べている。

ソース言語を指定しないこの方法には,異なるソース言語において,同じ綴りで違う意味を持つ単語の翻訳があいまいになる可能性があるという潜在的なデメリットに対して,単純に入力をコードスイッチングで処理できるというメリットがあります。ほぼすべての場合において,正しい翻訳を生成する上で十分な言語のエビデンスは,文脈から得られるということが分かりました。

ゼロショットネットワークについては,

... 8つのエンコーダと8つのデコーダのレイヤを持ち,アテンションと残留コネクション(residual connection)を使用したディープLSTMネットワークで構成されます ... トレーニングでは明示的に見なかった言語ペア間の暗黙的なブリッジングを実行することで,翻訳学習とゼロショット翻訳がニューラル翻訳によって可能であることを証明するものです。

翻訳の品質が即時に改善されたことは明らかであると同時に,103カ国語すべてをサポートするソリューションのためには,スケーラビリティに関する継続的な取り組みが焦点となる。一般使用可能な公開バージョンのGNMTシステムでは,最近の追加言語16のうち10言語が提供されている。

 
 

この記事を評価

関連性
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT