先日、TAUS Executive Forum Tokyo 2017で発表をしました。

私の発表は、Trados Studioにインストールしたプラグインで訳文の品質評価をし、その結果をTAUSのQuality Dashboard上で確認するという流れの説明とデモでした。
普段使っている作業環境で、編集作業などもしながら品質評価をできるので、便利だと思います。



DQFプラグインはTrados Studioだけでなく、XTMなどにも現在実装されています。プラグインの一覧はこちら:
https://www.taus.net/evaluate/plugins



今回のForumでは、音声翻訳やニューラル機械翻訳(NMT)といったテクノロジーがよく取り上げられていました。

しかし何度も出てきたのは「翻訳品質」の話題です。
機械翻訳が発展した場合、それがどの程度できるのかを測定する必要があります。出てきた数字自体を計算したり比較したりするのは客観的にできますが、「何を評価項目に入れるか」、「各評価項目は重み付けするのか」、「重み付けは分野で別にするのか一律にするのか」、「どの程度できれば何点を付けるのが妥当か」といった基本的な部分はどうしても主観を排除できません。人間が関わる部分です。

現在、機械翻訳の人手評価では「流暢さ」(Fluency)と「正確さ」(AccuracyまたはAdequacy)が2つの大きな指標になっています。
今回のForumでも指摘が出ていたのですが、例えばGoogleのNMTでは「用語」の統一などは図れないようです。商品レベルの訳文にするには「用語」や「スタイル」といった面も大事です。TAUSのDQF-MQMエラー分類にはどちらも入っています。しかしそういった指標は現在、機械翻訳開発者の間では重要だと認識されていないようです。
Googleの方に直接聞いてみたところ、今のところ流暢さと正確さを1つにまとめたような指標を使っているが、それも検討しなきゃならない……というようなことを言っていました。

結局「何が良ければ良い翻訳と言えるのか?」という問いは、テクノロジーが発展しても、答えが分からないまま残っているのが現状です。
前述のDQF-MQMは「エラー評価」ですが、「エラーがなければ良い翻訳である」とは言えません。エラー評価は翻訳のある側面しか見ていないわけです。もちろん「クライアントが良いと言えば良い翻訳だ」というのも違うでしょう。

JTFでは今年度から「翻訳品質委員会」を始めた(「標準スタイルガイド検討委員会」から改称)ので、テクノロジーが発展しても残る人間くさい部分に取り組んで行こうと考えています。