ポストエディット(post-edit)は、機械翻訳出力を人間が編集して読めるものにすることであるが、これは命名が悪かったのではないかと思っている。
というのも、この言葉からは、いかにもコンピューターが「翻訳」し、人間はせいぜい補助役という印象を受ける。
しかし現在のMTが実際に行っているのはテキスト変換である。そのため真に「翻訳」をしようとするならば、テキスト外部も含めた人間の文脈判断は不可欠である。つまり単に補助というより、人間の目が入って初めて「翻訳」が成立する。
(この辺りの話は、関西大学の山田さんと共著で言語処理学会で発表[PDF]した。)

人間は「翻訳」に不可欠なのに、それに「ポストエディット」と名前を付けてしまったので、今もさまざまな混乱が発生しているのではという考えである。



ポストエディットは最近登場したと思っている人がいるかもしれないが、歴史はかなり長い。

1966年に「ALPACレポート」(PDF)というものが発表された。機械翻訳の限界を指摘し、この後にアメリカの機械翻訳研究が停滞する原因になったとされる報告書である(こういう歴史的資料が公開されているのはありがたい)。
この資料の19ページに、ジョージタウン大学で1954年から始まった機械翻訳研究は、最終的にはポストエディットに頼るしかなかった("they had to resort to postediting")とある。
だから確認できる資料だけ見ても、ポストエディットは半世紀以上の歴史がある。



この1966年のALPACレポートには実に興味深い内容がいくつも掲載されている。
たとえば現在、翻訳品質評価の指標として「Fluency」(訳文のみ評価)と「Accuracy」(対訳で評価)が重視されているが、似たような「Intelligibility」と「Fidelity」という概念を評価指標にしている。

さらに、人間にポストエディットをしてもらう実験もある。
たとえば下の図は、23人の翻訳速度とポストエディット速度を比較したものである(p. 93より)。
ALPAC_p93

翻訳は遅いが、ポストエディットで大幅に速度が向上した人(例:17や20〜22)がいる。
こういった点から「ポストエディットは翻訳が速い人の足かせにはなるが、遅い人の助けにはなる」("... impede the rapid translators and assist the slow translators.")という分析が載っている。

また「ポストエディットは翻訳と比べて簡単か?」という質問に対し、
 ・8人:翻訳より難しい
 ・6人:同じくらい
 ・8人:簡単
 ・1人:簡単と同じくらいの間
といったアンケート結果も載っている(p. 91)。

現在やっていてもおかしくないような実験やアンケートが、すでに半世紀以上も前に実施されていたのは面白い(あるいは進歩していない?)。
ただしこの頃のコンピューターはGUIではなく、パンチカードをコンピューターに読み込ませるような方式だったはずなので、ポストエディットのやり方自体は大きく違うはずである。



ALPACレポートで個人的に興味深かったのは、コンピューターの歴史上で有名なJ・C・R・リックライダーが登場する場面だった(p. 19)。
ある人が自社で、ポストエディットした機械翻訳サービスを提供するつもりだと言う(すでにこの頃から!)。
これに対し、当時IBMに勤めていたリックライダーは「自社ではやらない」と答えたらしい。


機械翻訳に興味があるならば、このALPACレポートはざっとでも読んでおきたい資料である。