先日翻訳業界の集まりに行ったところ、去年発表された新しいGoogle翻訳が頻繁に話題に上った(ニュース記事)。翻訳会社では相当に危機感を持っていることが分かった。
新しいGoogle翻訳(Googleニューラル機械翻訳:GNMT)は大幅に翻訳品質を高めたとされているが、そもそもどのような方法で評価されたのだろうか? 特に人手評価の方法について確認したい。

GNMTに関する論文は公開されていて、無料でダウンロードできる:
Google's Neural Machine Translation System : Bridging the Gap between Human and Machine Translation https://arxiv.org/pdf/1609.08144v2.pdf

この論文の14ページに「8.2 Evaluation Metrics」という項目があり、評価方法が記載されている。
まず「自動評価」ではBLEUを使っている。これは、機械翻訳の訳文が人手翻訳の訳文と「どれだけ近いか」で評価する方法だ。(参照される人手翻訳自体の良し悪しは評価されていない点に注意。)

もう一方が今回注目したい「人手評価」である。
人間の評価者は、原文と訳文を1文ずつ見比べ、訳文に対して0〜6のスコアを付ける。その基準は以下の通りである。

  • 0:まったく意味が分からない翻訳("completely nonsense translation")

  • 2:訳文は原文の意味の一部は保持しているが、重要な部分が抜けている("the sentence preserves some of the meaning of the source sentence but misses significant parts")

  • 4:訳文は原文の意味の大部分は保持しているが、一部に文法的な誤りがある("the sentence retains most of the meaning of the source sentence, but may have some grammar mistakes")

  • 6:完璧な翻訳。翻訳の意味は原文と一致しており、文法も正確("perfect translation: the meaning of the translation is completely consistent with the source, and the grammar is correct”)


ちなみに評価者は両言語に流暢な人とされている("human raters who are fluent in both languages")。

この人手評価方法を使って、Googleが従来から使っていた「PBMT」、新しい「GNMT」、人手翻訳(Human)という3つが出力する訳文を比較する(18ページの「8.7 Results on Production Data」から)。原文となるのは、Wikipediaとニュース・サイトからランダム取得したサンプル500文のようだ。
評価結果の平均点は以下の写真の通りである:

GNMT_result

「PBMT」と「GNMT」を比較すると確かに上がっていることは分かるし、言語によっては「GNMT」が「Human」に非常に近いことも分かる。
このような人手評価の結果により、GNMTが従来のPBMTよりも改善されたと結論付けられたのである。

◆ ◆ ◆

さらに考えたいのは、0〜6まである人手評価のスコア基準である。
スコア基準の説明文をよく読むと、機械翻訳の人手評価(=主観評価)で一般的に使われる「忠実さ」(adequacy)と「流暢さ」(fluency)という2つの視点が用いられているように思われる。
まず「忠実さ」とは、原文の意味がどの程度訳文に保持されているかという視点である。そのため対訳での評価となる。
一方「流暢さ」とは、訳文がどの程度自然か、という視点である。そのため訳文だけを見て評価する。

翻訳業界でも品質評価(特にエラー評価)で用いられている項目がある。例えばDQF-MQMでは以下の項目が使われる:
 1. 正確さ(Accuracy)
 2. 流暢さ(Fluency)
 3. 用語(Terminology)
 4. スタイル(Style)
 5. デザイン(Design)
 6. ロケール慣習(Locale convention)
 7. 事実性(Verity)

一見して分かるように、機械翻訳における「流暢さ」は「2. 流暢さ」である。また「忠実さ」は「1. 正確さ」に相当する。機械翻訳分野における評価は、翻訳業界における評価と重なっている部分があるということだ。
それどころか、翻訳業界では「デザイン」や「事実性」など、機械翻訳分野で評価されていない項目までも対象となっている。つまり、現在の機械翻訳が評価している対象は、翻訳業界が評価している対象よりも狭いということである。

翻訳業界の人は、機械翻訳分野で何をどう評価しているのかきちんと把握しておくべきだろう。そうすれば人間が力を発揮できる場所を見つけられるのではないか。