rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

翻訳/L10N

14 6月

日本翻訳連盟(JTF)の理事に就任

先日(6/7)、日本翻訳連盟(JTF)の総会で承認していただき、理事に就任しました。

JTFは翻訳会社と個人翻訳者の両者が参加している翻訳業界団体です。
私は「産業翻訳は、翻訳者による実作業だけでは完結せず、原文が書かれるところから訳文が使われるところまでのプロセス全体を対象にしなければならない」と考えています。そのため、両者が参加するJTFは大きな役割を果たすはずです。

理事としては特に「翻訳品質」に取り組みたいと思っています。
機械翻訳の精度が向上したとされている現在、「何をもって良いとするのか?」という品質基準の確立は翻訳業界にとって重要です。きちんとした品質基準がないと、翻訳成果物は一緒くたにされてしまう可能性があります。何とか日本語になっている程度の訳文も、時間をかけて丁寧に作った訳文も、十把ひとからげです(※)。
これは翻訳業界にとって悲しい事態ですが、顧客側にとっても不便が生じます。例えばお金がかかっても優れた翻訳が欲しいという場面で、選択肢を見極める手段がないのです。要するに品質基準がないと、翻訳業界自身も顧客も困るのではないかと感じます。

JTFでは今年度から「翻訳品質委員会」が始まりました。私も一委員として参加しています。
「標準スタイルガイド検討委員会」からの改称ですが、扱う範囲は広くなっています。翻訳品質の要素としては、スタイルのほかに、例えば「用語」や「流暢さ」といった要素があります。こういった品質全体を視野に入れるつもりです。

翻訳品質委員会としては、まず翻訳品質のガイドラインの策定に取り組む予定です。
ガイドラインといっても、業界全体で均一の品質を目指そうというわけではありません。何かしら「目安」や「基準」を持とうという程度です。
例えば、プロの翻訳サービスをまったく使ったことのない新規顧客がいた場合、どの程度やってもらえるのかという目安がないと、怖くて発注できないかもしれません。「無料の機械翻訳と何が違うの?」という質問にも明確に答えられません。
また業界で品質の目安があると、例えば翻訳会社Aは「うちは目安に加え、こういうことをしています」、翻訳会社Bは「うちは目安にこれとこれを追加しているので、その分料金が高いです」といったサービス展開ができます。要するに、差別化の基準として使えるわけです。
このように、ガイドラインがあると、業界全体として新規顧客を獲得したり、各翻訳会社が自社の特徴を出す手段となったりするのではと期待しています。結果として翻訳業界が活性化すればうれしいことです。
ただし、この辺りは個人的なイメージで、まだ委員会として何かを決めたわけではありません。

とりあえずの理事任期は1年ですが、上記の通りまずは「翻訳品質」について取り組みたいと考えています。


※ ちなみにISO 17100は翻訳の「サービス」が対象であり、翻訳成果物(プロダクト)そのものの品質を扱っているわけではありません。翻訳成果物については、今年からISO 21999として議論が始まります。
8 6月

流暢だが訳抜けが発生するニューラル機械翻訳

昨日、2017年度の日本翻訳連盟(JTF)の総会で、AAMT会長の中岩氏が基調講演をされた。そこで興味深い最新論文を紹介してもらった。
従来の統計的機械翻訳(そのうちPBMT)と、最新のニューラル機械翻訳(NMT)との比較をした論文で、どの種類のエラーが多く出るのかを調べたものだ。

 Fine-Grained Human Evaluation of Neural Versus Phrase-Based Machine Translation
 https://ufal.mff.cuni.cz/pbml/108/art-klubicka-toral-sanchez-cartagena.pdf
 Klubička, Filip, Toral, Antonio, M. Sanchez-Cartagenac, Victor著
 (The Prague Bulletin of Mathematical Linguistics. 2017, no. 108, p. 121–132)

英語からクロアチア語への翻訳について、MQMのエラー分類のうち「正確さ」(Accuracy)と「流暢さ」(Fluency)を使っている(ちなみにAccuracyは機械翻訳分野におけるAdequacyに相当)。
ただし、クロアチア語の特質に合わせて一致(Agreement)などの項目を独自に追加しているようだ。

結果は以下のようになっている。上記論文の表4を引用する。



一番左の列はエラー・タイプを示していて、「Accuracy」と「Fluency」という大きなレベルがあり、その下にいくつ項目がある。
またその右に機械翻訳システムが並んでいる。「PBMT」、「Factored」(Factored PBMTというPBMTの一種)、一番右が「NMT」である。
緑色のセルは、そのすぐ左のセルよりも良くなった(エラーが少ない)ことを示している。赤色のセルは、その逆である(※)。

一見して分かるように、流暢さ(Fluency)は全体的にNMTで向上している。
一方、NMTには赤いセルが1つある。正確さにおける「Omission」である。これは「訳抜け」のことだ。
これまで「NMTの訳文は読みやすくなったが、訳抜けが発生する」という指摘はなされてきた。Googleでも自社のNMTで発生することを認めている。
これが印象ではなく、きちんとした実証的研究として示されたことの意義はあると思う。私は当分野の専門家ではないので不勉強の可能性があるが、このような分かりやすい図表は初めて見た。
同研究は英語=クロアチア語間なので、日本語訳の評価もぜひしてもらいたいところだ。


※ アスタリスク(*)は統計的な有意差を示している(*はp<0.05、**はp<0.0001とのこと)。
3 6月

ISO 17100における「ポストエディットではないもの」の基準

前の投稿との関連です)

ISO 17100で力量を満たす翻訳者と認定されるためには、「翻訳」の経験が必要となる。
機械翻訳(MT)の出力を編集する「ポストエディット」がその経験にカウントされるかどうかで、議論が発生している。簡単に経緯をまとめると、以下の通りとなる。

・第三者機関として登録先となる日本規格協会(JSA)は、5/31の翻訳者登録制度説明会における質疑応答で、MT出力を使うことは経験にカウントしてよい旨の回答をした。
(ただし回答に「ポストエディット」という言葉そのものはなかったように記憶している)

・これに対し、ISO 17100はポストエディットを範囲外としているため、矛盾しているという内容の指摘がなされた。確かに、以下のような記載がある。
The use of raw output from machine translation plus post-editing is outside the scope of ISO 17100:2015.
引用元:https://www.iso.org/standard/59149.html


・ところが、ISO 17100で「post-edit」の用語解説の注記を見ると、「翻訳支援ツール(CAT)上に提示されるMT出力を翻訳者が見て使うことはpost-editに該当しない」としている。以下の部分だ(下線は西野)。

2.2.4
post-edit
edit and correct machine translation output (2.2.3)

Note 1 to entry: This definition means that the post-editor will edit output automatically generated by a machine translation engine. It does not refer to a situation where a translator sees and uses a suggestion from a machine translation engine within a CAT (computer-aided translation) tool.

引用元:https://www.iso.org/obp/ui/#iso:std:iso:17100:ed-1:v1:en


JSAの回答がこの注記のことを指していると理解すると、矛盾は無いように思える。



では、これがポストエディットにならないとする理由は何なのだろうか?
私は前の投稿で、MT出力の「訳文のみ」を見て編集するか「対訳」を見て編集するかが分別基準であると考えた。
CATツールは翻訳時に使うものであり、対訳で作業することが普通だ。また、原文と訳文の両方を見比べて判断を下すこと(例:「このMT出力は原文の意味を反映していて無編集で使える」という判断)は、「翻訳」作業の一種と捉えてよいと考えたからだ。
このように、ポストエディット時に扱うのが「訳文のみ」か「対訳」かを分別基準として考えれば、すっきりと説明できると思った。



しかし、「訳文のみ」か「対訳」かという基準を持ち込まなくても、文言通りに解釈してよいのでは、という指摘を同業者から受けた。CATツール上に提示されるMT出力を使うならポストエディットではない、ということだ。
もしMT出力がまず作業前提として存在し、それを編集するならば、ポストエディットである。
一方、翻訳作業中にCATツール上にMT出力が訳文の一候補として提示されるのならば、ポストエディットではない。翻訳者は自分の頭で訳してもよいし、翻訳メモリーから既存訳を取得してもよいし、当該MT出力を利用してもよい。
要するに、MT出力が作業の「前提」なのか、単に「一候補」なのか、が分別基準となる。

確かにこの基準を用いれば私の分別基準は不要だ。
しかし問題は、その見分けが難しいという点だろう。
例えば翻訳者がCATツールで、セグメントを開くたびに毎回MT出力を自動入力させるような作業手順を採用していたとする。このケースではポストエディットと何ら違いはないように思える。



このように、ISO 17100における「ポストエディットではないもの」を判断する基準は、あるにしても適用に困難が伴うように思える。
規格といっても結局人間が作るものであるし、発案時と現在とでは状況が違う(例:MTの進歩や普及)だろうから、将来的な改訂を待つしかないのかもしれない。

ただし少なくとも、翻訳者がCATツールを使って経験を積んだ際、そこにMT出力が少し入っていたという理由でアウト(ISOの翻訳者として不適合)という判定が下されることはない、とは言えそうだ。
2 6月

「ポストエディット」という言葉が招く混乱

前投稿と関連する内容です)

ISO 17100の翻訳実績として「ポストエディット」が認められる旨の回答を登録先機関(日本規格協会:JSA)がした。
それに対し、そもそもISO 17100は「ポストエディット」(機械翻訳+後編集:MT+PE)を範囲外としているので、おかしいのではという指摘が出ている。該当する部分を引用する:
The use of raw output from machine translation plus post-editing is outside the scope of ISO 17100:2015.

https://www.iso.org/standard/59149.html


ところがISO 17100の「2.2.4 post-edit」の定義の注を見るとこうある(下線は西野が追加):

2.2.4
post-edit
edit and correct machine translation output (2.2.3)

Note 1 to entry: This definition means that the post-editor will edit output automatically generated by a machine translation engine. It does not refer to a situation where a translator sees and uses a suggestion from a machine translation engine within a CAT (computer-aided translation) tool.

https://www.iso.org/obp/ui/#iso:std:iso:17100:ed-1:v1:en

つまり、翻訳支援ツール(CAT)に提示される機械翻訳の出力を翻訳者が見て使うことは「post-edit」に該当しないということである。



ここで混乱が生じている。
一般的に、ポストエディットという場合、2種類が考えられる。

 A. 機械翻訳が出力した訳文のみを見て、訳文を編集する
 B. 機械翻訳が出力した訳文と原文とを見比べて、訳文を編集する

ISO 17100では、Aを「post-edit」とし、Bは違うとしている。

確かにAは訳文しか見ないのだから、「翻訳」には該当しないだろう。
Bの場合は「翻訳」だとしても違和感はない。
翻訳メモリー(TM)を使った翻訳は現在では「翻訳」に入るはずだ。外部(自分以外)から提示された訳語や訳文を利用して翻訳作業をする点で、Bと本質的な違いはないと思う。さらに言うと、辞書という外部資料を使って訳語に当たるのも違いはないように思える(語レベルで訳候補を提示するか、文レベルで訳候補を提示するかの違い)。

混乱の原因は、Bに専用の呼称が存在しないからではないだろうか?
前述の通り、AもBも一般的には「ポストエディット」と呼ばれる。
Bは例えば「機械翻訳の対訳編集」と呼ぶなど、何かしら専用の名前が欲しいところだ。


私はJSAの説明会の質疑応答の場にいたが、回答者がBの方を指していると理解した。しかし、Aと理解する人がいてもおかしくないだろう。
混乱を招かないような対策が必要だと思う。
続きを読む »
1 6月

何を「翻訳」とするかは難しい

翻訳会社がISO 17100に基づく翻訳サービスを提供する際、ISOが定める資格と力量を満たした翻訳者を使う必要がある。
資格と力量を満たしていることを、第三者として日本規格協会(JSA)が証明する「翻訳者登録制度」が始まった。
私も、昨日の説明会に参加してきた。

説明会の質疑応答時に「機械翻訳の出力を編集する『ポストエディット』は翻訳実績に入るのか?」という内容の質問が出た。
JSA側は人間の手が入れば翻訳実績とするという回答をした。しかしこれに対し、JSAはポストエディットに対する認識が甘いのではないかという反応が翻訳業界関係者から出ている。

何を「翻訳」とするかは、実のところ非常に線引きが難しい問題だ。

いくつか見方はあるだろうが、ここでは「プロダクト」(翻訳成果物)と「プロセス」という点から考えてみたい。

◆プロダクト(翻訳成果物)
最終的に完成したプロダクトがきちんと(※)していれば、「翻訳」をしたのだとみなす立場がある。
従来の人手翻訳は当然含まれる。プロダクトがきちんとさえしていれば、ポストエディットだろうが、翻訳メモリーを使おうが、もちろん「翻訳」に入る。
さらに、例えば機械翻訳の出力や翻訳メモリーからの自動入力を対訳で見比べ、「問題ない」と判断を下すような行為(編集作業はしないとする)も「翻訳」に入りうる。

(補足:ポストエディットは訳文のみを見て修正することもあるが、ここでは対訳で確認する行為を想定)

◆プロセス
人間が「翻訳」という作業プロセスを経て初めて、翻訳とみなす考え方もある。
この場合、「翻訳」という作業プロセスに不可欠な要素(あるいは規定する要素)が何であるのかを明確にする必要がある。

例えば「翻訳全体を自分の頭でひねり出すこと」がプロセスに不可欠な要素だとする。
ポストエディットは機械翻訳の出力を部分的に変更する行為なので、「翻訳全体」を自分の頭でひねり出しているわけではない。だから「翻訳」ではないという結論に至る。
翻訳メモリーを使った翻訳作業も「翻訳」になるかは疑わしい。特に他人が格納した対訳データを使った場合、「翻訳全体」を自分の頭からひねり出しているわけでないため、「翻訳」にはならない。
よくよく考えて見ると、辞書を使ってもまずいかもしれない。例えば英和翻訳時に意味の分からない単語があり、辞書を引いたとする。そこで辞書の訳語を選んで採用した場合、自分の頭でひねり出したわけではないから「翻訳」には該当しなくなる。

では、全体ではなく「翻訳の一部を自分の頭でひねり出すこと」としたらどうか?
この場合、辞書を使うケースは「翻訳」だし、ポストエディットも部分的に人間がひねり出しているわけだから「翻訳」だ。

もちろん、0か1かという話ではなく、灰色が薄いか濃いかという話だろう。その場合、どこまでを黒(または白)とするかという線引きの合意が必要になる。



思うに、質疑応答でJSAが不用意や不勉強であったというより、これまで翻訳業界が怠惰だったということではないだろうか。
「翻訳」とは何であり、何をすれば実績として認められるべきかは、本来は翻訳業界が決めることのはずだ。
これを機に、もっと翻訳業界内で議論を深めなければならないだろう。


※「きちんとした」を定義するのもまた難しいが、ここでは仮に「原文読者が受けるインパクトを訳文読者も同じように受ける」程度にしておく。
RSS フィード
記事検索
過去の記事
筆者について
西野 竜太郎
(Ryutaro Nishino)

翻訳者/コンサルタント。合同会社グローバリゼーションデザイン研究所・代表社員。日本翻訳連盟・理事。
プロフィールや連絡先などについては会社のウェブサイトをご覧ください。
Twitterアカウント
著書
アプリケーションをつくる英語

紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
【第4回ブクログ大賞受賞】