rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

6 5月

昔からある機械翻訳のポストエディット

ポストエディット(post-edit)は、機械翻訳出力を人間が編集して読めるものにすることであるが、これは命名が悪かったのではないかと思っている。
というのも、この言葉からは、いかにもコンピューターが「翻訳」し、人間はせいぜい補助役という印象を受ける。
しかし現在のMTが実際に行っているのはテキスト変換である。そのため真に「翻訳」をしようとするならば、テキスト外部も含めた人間の文脈判断は不可欠である。つまり単に補助というより、人間の目が入って初めて「翻訳」が成立する。
(この辺りの話は、関西大学の山田さんと共著で言語処理学会で発表[PDF]した。)

人間は「翻訳」に不可欠なのに、それに「ポストエディット」と名前を付けてしまったので、今もさまざまな混乱が発生しているのではという考えである。



ポストエディットは最近登場したと思っている人がいるかもしれないが、歴史はかなり長い。

1966年に「ALPACレポート」(PDF)というものが発表された。機械翻訳の限界を指摘し、この後にアメリカの機械翻訳研究が停滞する原因になったとされる報告書である(こういう歴史的資料が公開されているのはありがたい)。
この資料の19ページに、ジョージタウン大学で1954年から始まった機械翻訳研究は、最終的にはポストエディットに頼るしかなかった("they had to resort to postediting")とある。
だから確認できる資料だけ見ても、ポストエディットは半世紀以上の歴史がある。



この1966年のALPACレポートには実に興味深い内容がいくつも掲載されている。
たとえば現在、翻訳品質評価の指標として「Fluency」(訳文のみ評価)と「Accuracy」(対訳で評価)が重視されているが、似たような「Intelligibility」と「Fidelity」という概念を評価指標にしている。

さらに、人間にポストエディットをしてもらう実験もある。
たとえば下の図は、23人の翻訳速度とポストエディット速度を比較したものである(p. 93より)。
ALPAC_p93

翻訳は遅いが、ポストエディットで大幅に速度が向上した人(例:17や20〜22)がいる。
こういった点から「ポストエディットは翻訳が速い人の足かせにはなるが、遅い人の助けにはなる」("... impede the rapid translators and assist the slow translators.")という分析が載っている。

また「ポストエディットは翻訳と比べて簡単か?」という質問に対し、
 ・8人:翻訳より難しい
 ・6人:同じくらい
 ・8人:簡単
 ・1人:簡単と同じくらいの間
といったアンケート結果も載っている(p. 91)。

現在やっていてもおかしくないような実験やアンケートが、すでに半世紀以上も前に実施されていたのは面白い(あるいは進歩していない?)。
ただしこの頃のコンピューターはGUIではなく、パンチカードをコンピューターに読み込ませるような方式だったはずなので、ポストエディットのやり方自体は大きく違うはずである。



ALPACレポートで個人的に興味深かったのは、コンピューターの歴史上で有名なJ・C・R・リックライダーが登場する場面だった(p. 19)。
ある人が自社で、ポストエディットした機械翻訳サービスを提供するつもりだと言う(すでにこの頃から!)。
これに対し、当時IBMに勤めていたリックライダーは「自社ではやらない」と答えたらしい。


機械翻訳に興味があるならば、このALPACレポートはざっとでも読んでおきたい資料である。
6 5月

Wordpressプラグイン翻訳で日本語ロケール設定の注意点

自分がはまってしまって時間を取られたので、技術的なメモ書き。

Wordpressはプラグインを追加することで、用途に応じたウェブ・アプリケーションを簡単に用意できる。
多言語化機能も整っていて、きちんと国際化(I18N)対応しているプラグインであれば、POTファイル(.pot)から翻訳するだけで、すぐに日本語などで表示できる。

たとえば「AWPCP」(Another Wordpress Classified Plugin)というプラグインでは、/wp-content/plugins/another-wordpress-classifieds-plugin/languagesフォルダー以下にPOTファイルがある。

POTファイル


このPOTファイルを「PoEdit」のような専用翻訳支援ツールで開く。POTのTはテンプレートのことなので、テンプレートからまず日本語用にPOファイルを生成する。続いて、下記の「全般設定」のように翻訳を入力する。

PoEdit


これを保存し、同時に機械読み込み用のMOファイルを生成する。この際、ロケール名を付けなければならないのだが、私は最初の写真にある他のファイルのロケール名(de_DE、en_USなど)に合わせ、「ja_JP」とした。つまり「another-wordpress-classifieds-plugin-ja_JP.mo」である。

こうしたら、Wordpress本体の「サイトの言語」を日本語に再設定すれば翻訳が表示される。実に簡単である……

サイトの言語設定


と思っていたが、翻訳が表示されない。
そこでプラグインを無効化→有効化したり、再インストールしたりしてみたが、翻訳は表示されないまま。

しばらく悩んでいたが、どうもWordpress「サイトの言語」の「日本語」は内部的なロケールとしては「ja_JP」ではなく「ja」であると気づいた。
そこでファイル名も「another-wordpress-classifieds-plugin-ja.mo」と変えると、無事表示された。

AWPCP日本語

ほかのロケールが「de_DE」、「en_US」、「es_ES」、「fr_FR」といった表記だったので、当然「ja_JP」になるはずという思い込みが原因だった。

Wordpressの「日本語」は、ロケールとしては「ja」であり、ja_JPは(自環境の選択肢になかったが)「日本語(日本)」だと思われる。
1 5月

『プログラミング英語教本』を書きました

『プログラミング英語教本』という本を書きました。本日5/1にその電子版が発売されています。

プログラミング時に触れる英語のドキュメント4種類(ソースコードのコメント、APIリファレンスなど)について解説しています。「プログラミング必須英単語600+」についても詳しく紹介しています。

また、本書はプログラミング英語検定の学習用書籍にもなっています。

プログラミング英語教本

書籍ページ: https://globalization.co.jp/publication/programming-english-textbook/
(試し読みがこちらから可能)

現在、電子版を購入できるのは、達人出版会Google Play書籍です(後日Kindleも予定)。

なお紙版は7月中旬の発売を予定しています。アマゾン楽天ブックスではすでに予約を受け付けているようです。

お読みいただけると幸いです。
★最新刊★
プログラミング英語教本 『プログラミング英語教本』
筆者について
西野 竜太郎
(Ryutaro Nishino)

翻訳者/著者/リンギスト。日本翻訳連盟・理事。
プロフィールや連絡先などについてはこちらをご覧ください。
Twitterアカウント
RSS フィード
著書/訳書
血と汗とピクセル
『血と汗とピクセル』


アプリ翻訳実践入門
『アプリ翻訳実践入門』


ソフトウェアグローバリゼーション入門
インプレス刊
『ソフトウェアグローバリゼーション入門』

達人出版会刊
『ソフトウェア・グローバリゼーション入門』


英語語源が魔術に変わる世界では
『英語語源が魔術に変わる世界では』


現場で困らない! ITエンジニアのための英語リーディング
『IT英語リーディング』


アプリケーションをつくる英語
紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
第4回ブクログ大賞受賞】