機械翻訳の性能をTOEICの点数に換算して測定したニュース記事をたまに見る(例:「2019年にはTOEIC 800点相当の機械翻訳へ--「みらい翻訳」が見据える可能性と未来」)。リーディングとリスニングで点数を出すTOEICで翻訳能力を測れるのか疑問に感じるし、どういう根拠で測定しているのか知りたいと思っていた。

先日『機械翻訳』という本を読んでいると、その方法が紹介されていた。43ページ目をやや長いが引用する。
 菅谷らは,日英音声翻訳システムの翻訳文と,人間の翻訳結果を一対比較することにより,システムの翻訳品質をTOEICスコア†に換算した212)。その手順をまとめると,以下のとおりである。
 1) TOEICスコアが判明している人(300点以上)を,100点ごとに5人ずつ集める(計30人)。
 2) その人たちがテストセットの各文を翻訳する。一方,翻訳システムもテストセットを翻訳して訳文をつくる。
 3) 各文について,専門の評価者が,人間の翻訳文とシステムの翻訳文を一対比較し,優劣を付ける(つまり,1原文について30回の一対比較を行う)。
 4) TOEICスコアが低い人との比較ではシステム出力が勝つ場合が多く,スコアが高い人では人間の翻訳が勝つ場合が多い。そこで,TOEICスコアを横軸に,システムの勝率を縦軸にして回帰直線を引くと,勝敗が拮抗する点が,システムのTOEICスコア換算値となる。

(ちなみに引用文中で、†はTOEICがEducational Testing Servicesの登録商標であること、文献212は「菅谷史昭,竹澤寿幸,横尾昭男,山本 誠一:音声翻訳システムと人間との比較による音声翻訳能力評価手法の提案と比較実験,電子情報通信学会論文誌 D-II,J84,11,pp. 2362〜2370 (2001).」である。)

上記を簡単な図で説明してみる。各文でシステムが勝てば○、システムが負ければ(つまり人間が勝てば)●である。勝敗がほぼ半々になるのは500と600との間なので、TOEICスコア換算値は550点程度と推測できる。


もしシステムの性能が上がって勝ちが多くなれば、以下のような図になる。勝敗がほぼ半々になるのは700と800の間で、TOEICスコア換算値は750点などと推測できるだろう。


TOEICスコアへの換算方法は分かったのだが、いまいち納得できず、もやもやしている。
翻訳をするには、TOEICで測るような言語能力が必須である(必要条件)。例えば英語を読めなければ、最低限の英日翻訳にもならない。だからTOEICのスコアと翻訳能力との間にある程度の相関が見られたとしても不思議ではない。しかし翻訳というのは、単にTOEICで測るような言語能力があってもできるものとは言えない。英日翻訳なら日本語を書く能力や専門分野の知識なども求められる。そういった能力もあって初めて十分条件となる。
私がいまいち納得できないのは、翻訳能力全体をその一部(言語能力)に代表させてしまっているように感じる点かもしれない。例として適切か分からないが、プロサッカー選手の能力を「持久力」で測ろうとしているのと同じように感じる。プロサッカー選手であるならば持久力は必要だし、アマチュアや学生などと比べると高いだろう。だからサッカー能力と持久力は相関しているはずだ。しかし、持久力があればプロサッカー選手として十分かと言えば、そうではないだろう。
この辺りのもやもやはもう少し整理して考えてみたい。

ちなみに『機械翻訳』には次のような続きがある(44ページ)。
 この方法は,一対比較回数が多く非常にコストが高いが,人間の翻訳能力に換算することにより,機械翻訳の研究者・開発者以外の人にもシステムの能力を(直感的に)イメージさせることができるというメリットがある。

メリットとあるが、果たしてメリットなのだろうか。
上記の通り、翻訳はTOEICで測るような言語能力だけでは成り立たないと考えている。だからTOEICスコアを使うのは、一般の人(「機械翻訳の研究者・開発者以外の人」)に翻訳について誤ったイメージを持たせる結果になるのではないか。誤ったイメージが広がるならば、むしろデメリットである。
「TOEIC 800点相当の翻訳!」のように使えれば製品広告としては簡潔でメリットもあるかもしれないが、翻訳者である私からすればどうにも不誠実さを感じざるを得ない。

思うに、機械翻訳システムの能力を測るなら、本来はTOEICに換算せず、翻訳経験年数などで測るべきではないだろうか。例えば、
 ・翻訳専攻の大学生
 ・翻訳専攻の大学院生
 ・0〜2年程度のプロ翻訳者
 ・2〜5年程度のプロ翻訳者
 ・5年超のプロ翻訳者
である。こういった方法ならまだ私個人としては納得できる。