昨日、2017年度の日本翻訳連盟(JTF)の総会で、AAMT会長の中岩氏が基調講演をされた。そこで興味深い最新論文を紹介してもらった。
従来の統計的機械翻訳(そのうちPBMT)と、最新のニューラル機械翻訳(NMT)との比較をした論文で、どの種類のエラーが多く出るのかを調べたものだ。

 Fine-Grained Human Evaluation of Neural Versus Phrase-Based Machine Translation
 https://ufal.mff.cuni.cz/pbml/108/art-klubicka-toral-sanchez-cartagena.pdf
 Klubička, Filip, Toral, Antonio, M. Sanchez-Cartagenac, Victor著
 (The Prague Bulletin of Mathematical Linguistics. 2017, no. 108, p. 121–132)

英語からクロアチア語への翻訳について、MQMのエラー分類のうち「正確さ」(Accuracy)と「流暢さ」(Fluency)を使っている(ちなみにAccuracyは機械翻訳分野におけるAdequacyに相当)。
ただし、クロアチア語の特質に合わせて一致(Agreement)などの項目を独自に追加しているようだ。

結果は以下のようになっている。上記論文の表4を引用する。



一番左の列はエラー・タイプを示していて、「Accuracy」と「Fluency」という大きなレベルがあり、その下にいくつ項目がある。
またその右に機械翻訳システムが並んでいる。「PBMT」、「Factored」(Factored PBMTというPBMTの一種)、一番右が「NMT」である。
緑色のセルは、そのすぐ左のセルよりも良くなった(エラーが少ない)ことを示している。赤色のセルは、その逆である(※)。

一見して分かるように、流暢さ(Fluency)は全体的にNMTで向上している。
一方、NMTには赤いセルが1つある。正確さにおける「Omission」である。これは「訳抜け」のことだ。
これまで「NMTの訳文は読みやすくなったが、訳抜けが発生する」という指摘はなされてきた。Googleでも自社のNMTで発生することを認めている。
これが印象ではなく、きちんとした実証的研究として示されたことの意義はあると思う。私は当分野の専門家ではないので不勉強の可能性があるが、このような分かりやすい図表は初めて見た。
同研究は英語=クロアチア語間なので、日本語訳の評価もぜひしてもらいたいところだ。


※ アスタリスク(*)は統計的な有意差を示している(*はp<0.05、**はp<0.0001とのこと)。