数字で測って比べる不幸 : IT翻訳者Blog

ここ何年かの間、「翻訳の品質とは何か？」、「それをどう測定できるのか？」という問題に取り組んできた。一応の結論として「JTF翻訳品質評価ガイドライン」という形で公開できた。

もちろん一直線に結論に到達したわけではなく、悩ましい問題もあった。従来、業界では「翻訳品質はエラーの数で測る」という手法が広く用いられてきた。たとえば用語集違反が1つあれば、それに深刻度を掛けて点数にする。点数を合計し、低ければ高品質とする考え方だ。出るのは数字だし、他と比較も可能なので、客観性のある方法だと考えられている。

しかし、そもそも翻訳の良し悪しをエラー数だけで測ってよいのかという疑問はあった（記事）。たとえば広告の場合、用語集やスタイルガイドに違反した（＝エラー）としても、最終読者の心を動かすような訳文に仕上げたほうが、発注者も翻訳者もうれしいはずだ。そのため上記ガイドラインでは「適切な場面では、主観評価なども組み入れて評価しましょう」といった主張になっている。

◆ 代用特性とは

何かの品質特性（上記なら翻訳の良し悪し）を直接的に測るのが難しい場合、代わりに別のもの（上記ならエラー数）で測る。品質管理分野ではこの別のものを「代用特性」と呼ぶ。たとえばQC検定4級のテキストにはこう説明されている。

要求される品質特性を直接測定することが困難な場合、同等又は近似の評価として用いる他の品質特性。

「品質管理検定（ＱＣ検定）４級の手引き Ver.3.1」p. 40（https://webdesk.jsa.or.jp/pdf/qc/md_4611.pdf）

実はこの説明の末尾に重要な一文が書かれている。

代用特性は、要求される品質特性を直接測定しているわけではありません。したがって、要求される品質特性と代用特性との関係を十分に確認することが必要です。

要するに、本当に図りたい品質をその代用特性で測れているのか、その代用特性は妥当なのか、という疑問を常に持てという話である。また、単に測りやすいからという理由で、ある代用特性を利用するのも望ましくないだろう。

翻訳業界で代用特性が使われる場面は、上記のエラー数以外にもある。一例を挙げると「TOEICの点数で機械翻訳の質を測る」ケースである。詳しい測り方はこちらの記事で説明しているが、私も含めて多くの翻訳者は批判的に捉えている。品質特性（＝翻訳の質）と代用特性（＝TOEIC点数）との間に十分な関係がないのではということである（外国語ができるだけでは翻訳はできない）。

しかしながら、最初に挙げたエラー評価も、TOEIC点数による機械翻訳システム評価も、疑問を持つことなく使われることが多い。あるいは疑問を持ちつつも、仕方なく使っているのかもしれない。というのも数字で出すと比較が容易であるし、客観性があると思われて人を説得しやすいからである。このとき”客観性”という錦の御旗に隠されてしまうのが、上で説明した代用特性の妥当さである。

数字で測って比べるのは客観性があるのかもしれないが、その結果、本当に測りたいものが測れていないのであれば残念なことである。

◆

よく考えてみると、人生や社会生活の中でも、代用特性の妥当さをよく考えないまま使ってしまい、結果的に不幸になるケースはありそうだ。

たとえば、学校の良し悪しに「偏差値」を、就職先企業の良し悪しに「年収」を代用特性として使ってしまうような場合である。どちらも数字なので客観性があって説得力はありそうだし、ほかとの比較も簡単だ。そういった代用特性を何も考えずに使って入学先や就職先を判断してしまうと、人によっては悲しい境遇に陥ることになるだろう。

◆

数字で測って比べるのは、客観性があり説得力もある。しかしその数字が代用特性である場合、真に測りたい品質特性との関係は十分なのか、妥当であるのかを常に意識しておきたいものである。