rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

翻訳/L10N

7 1月

JTFジャーナルがウェブメディアとしてスタート

日本翻訳連盟(JTF)が印刷冊子として発行していた「JTFジャーナル」は、2021年1月からウェブに移行しました。

JTFジャーナル WEB版
https://webjournal.jtf.jp/



これに伴い、河野弘毅さんから私が編集長を引き継ぐことになりました。

印刷版はじっくり読める記事が多数掲載されている点が良かったのですが、2か月に1度の発行だったため、速報性のあるニュースを出しにくいという弱点もありました。そこでウェブ版では、じっくり読める記事も掲載しつつ、翻訳業界の最新ニュースを中心に取り上げる予定です。



じっくり読める記事としては、まず「連載」があります。リンギストに焦点を当てたインタビュー記事連載「リンギストの仕事」と、機械翻訳の最新動向を紹介して考察も加える連載「Transformed」です。

ほかに「特集」として、翻訳祭やJTF主催セミナーなどの報告を掲載します。

また、JTF会員自身で投稿できる機能も追加しました。法人会員はニュースリリース(プレスリリース)、個人会員は(自分で主催する)勉強会情報です。



上記のように、ウェブ版JTFジャーナルで中心となるのは、翻訳業界の最新ニュースです。

大きめのニュースは個別記事としますが、小さめあるいは参考までのニュースは週に1度「週間ニュースまとめ」という形で掲載します。

情報提供のフォームも設置しています。取り上げるべきだと思われる業界ニュースやイベントがあれば、フォームからぜひお知らせください。
6 1月

個人や中小企業で提供する分野特化の機械翻訳サービス

ニューラル機械翻訳(NMT)のシステムは、使うだけならGoogleなどのものを無料で利用できる。しかしNMTシステムを作るとなると、対訳データが大量(数十〜数百万ペア)に必要な上に、モデルをトレーニングさせるためのGPUが高価(数十万円)であるため、個人はもちろん、中小の翻訳会社でもハードルは高かった。

ところがここ数年くらいで「アダプテーション」と呼ばれる仕組みが広がりつつある。これは、汎用モデルに対し、特定分野の対訳データで追加トレーニングすることを指す。そのため当該分野に強いNMTシステムを構築できる。アダプテーション対応のサービスでは、基本となる汎用対訳データが用意されているので、自分で専門分野の対訳データを「ある程度」準備すればよいだけである。特定の分野や言語で質の高い対訳データを持つ中小翻訳会社や個人は、分野に特化したNMTサービスを有料で提供したり、自社の翻訳ビジネスを拡張したりできるかもしれない。

「ある程度」と書いたが、どのくらいの対訳データ(ペア数)があれば十分かの判断はなかなか難しい。後述するGlobaleseでは1.5万が最小、10万以上を推奨としている(参考)。一方でマイクロソフトの記事を見ると、特定分野(office)において1.5万から10万に増やしてもさほど変わっているようにも思えない。だから最初は「数万」くらいを用意し、様子を見つつ徐々に増やすという方法が良いのだろうか。



アダプテーションに対応したクラウド・サービスはいくつかある。用語登録など機能の有無に違いはあるが、私がまず気になったのはトレーニングのコストだったので、その点を中心に見てみる。

・Google AutoML Translation
https://cloud.google.com/translate/automl/docs

トレーニングは1時間あたりが45米ドルで、上限は300ドルである。1〜10万ペアで4〜5.5時間とあるので、仮に5時間トレーニングすると、225ドル(約2.5万円)かかる。
料金表はこちら

・Microsoft Translator
https://azure.microsoft.com/ja-jp/services/cognitive-services/translator/

100万文字あたり4,480円(毎月200万文字までは無料)で、1回のトレーニングあたりの上限が33,600円である。
料金表はこちら

・IBM Language Translator
https://cloud.ibm.com/docs/language-translator

トレーニング自体は無料のようだが、「拡張」プラン以上が必要で、MT出力には費用がかかる。
料金表はこちら

・Globalese
https://www.globalese-mt.com/

クラウドは月50ユーロ(約6,000円)の固定。
料金表はこちら



GoogleやMicrosoftのように、1回トレーニングするたびに2〜3万円かかるのは、個人や中小企業にはなかなか厳しい。そう考えるとIBMやGlobaleseのトレーニング無料のサービスに目が行く。

しかし実はコストがかかるのはトレーニングだけでない。機械翻訳の出力(文字あたり)にも、サーバー維持にもお金がかかる。結局、トータルで計算しないと……と思っていたとき、すでに計算していた人がいた! 以下は2019年時点のデータだが、非常にありがたい。スライドの前の方には各サービスの機能も掲載されている。





上記の表を参考にすれば、アダプテーションしたNMTシステムを維持するトータルの概算コストは何とか計算できそうだ。

しかし、もしユーザーにそのNMTシステムを有料で使ってもらうビジネスを始めようとしたら、課金システムを別途作らなければならない。筆者のようにITを専門にしている翻訳者であっても、課金システムを用意するのは簡単ではない……と思っていたところ、何とその部分を面倒を見てくれるサービスがあった。

・SYSTRAN Model Studio
https://www.systransoft.com/translation-products/systran-model-studio/

簡単に言うと、自分の対訳データでモデルをトレーニングし、それをマーケットプレイスに公開して有料で使ってもらうという仕組みらしい。確かに、よく考えたらこのようにモデルを仲介するプラットフォーム・ビジネスは成立しそうだ。ただしモデル提供者の取り分がいくらかはすぐに分からなかった。

トレーニング済みモデルのカタログを見ると、すでに256個(2021-01-05時点)が公開されている。多くはSYSTRAN提供だが、それ以外もある。日本語では、日⇔中の医療機器文書から作られたモデルがある(ISE提供)。



上記のような便利なサービスがあったとしても、まずそれ以前に準備すべきは対訳データである。ペアは「数万」は必要そうだと上で書いた。

実は先日、自分の専門分野(IT)で対訳ペアをウェブ上で集めてみた。丸々1日かけて集まったのは3,000弱だった。毎日そのペースで順調に集められれば、2週間くらいで数万にはなりそうではある。しかし、ウェブ上のデータを著作権法上は問題なく入手できたとしても、利用規約で用途外利用が禁止されていることもある。全くのゼロから集めるとしたら、数万でも容易ではないかもしれない。やはり対訳データ所有者と交渉できる企業が有利だろう。

個人や中小企業でNMTサービスを提供する便利な仕組みは現れつつあるが、やはり越えるべきハードルはいくつもありそうだ。
22 11月

数字で測って比べる不幸

ここ何年かの間、「翻訳の品質とは何か?」、「それをどう測定できるのか?」という問題に取り組んできた。一応の結論として「JTF翻訳品質評価ガイドライン」という形で公開できた。

もちろん一直線に結論に到達したわけではなく、悩ましい問題もあった。従来、業界では「翻訳品質はエラーの数で測る」という手法が広く用いられてきた。たとえば用語集違反が1つあれば、それに深刻度を掛けて点数にする。点数を合計し、低ければ高品質とする考え方だ。出るのは数字だし、他と比較も可能なので、客観性のある方法だと考えられている。

しかし、そもそも翻訳の良し悪しをエラー数だけで測ってよいのかという疑問はあった(記事)。たとえば広告の場合、用語集やスタイルガイドに違反した(=エラー)としても、最終読者の心を動かすような訳文に仕上げたほうが、発注者も翻訳者もうれしいはずだ。そのため上記ガイドラインでは「適切な場面では、主観評価なども組み入れて評価しましょう」といった主張になっている。

◆ 代用特性とは

何かの品質特性(上記なら翻訳の良し悪し)を直接的に測るのが難しい場合、代わりに別のもの(上記ならエラー数)で測る。品質管理分野ではこの別のものを「代用特性」と呼ぶ。たとえばQC検定4級のテキストにはこう説明されている。
要求される品質特性を直接測定することが困難な場合、同等又は近似の評価として用いる他の品質特性。

「品質管理検定(QC検定)4級の手引き Ver.3.1」p. 40(https://webdesk.jsa.or.jp/pdf/qc/md_4611.pdf


実はこの説明の末尾に重要な一文が書かれている。
代用特性は、要求される品質特性を直接測定しているわけではありません。したがって、要求される品質特性と代用特性との関係を十分に確認することが必要です。

要するに、本当に図りたい品質をその代用特性で測れているのか、その代用特性は妥当なのか、という疑問を常に持てという話である。また、単に測りやすいからという理由で、ある代用特性を利用するのも望ましくないだろう。

翻訳業界で代用特性が使われる場面は、上記のエラー数以外にもある。一例を挙げると「TOEICの点数で機械翻訳の質を測る」ケースである。詳しい測り方はこちらの記事で説明しているが、私も含めて多くの翻訳者は批判的に捉えている。品質特性(=翻訳の質)と代用特性(=TOEIC点数)との間に十分な関係がないのではということである(外国語ができるだけでは翻訳はできない)。

しかしながら、最初に挙げたエラー評価も、TOEIC点数による機械翻訳システム評価も、疑問を持つことなく使われることが多い。あるいは疑問を持ちつつも、仕方なく使っているのかもしれない。というのも数字で出すと比較が容易であるし、客観性があると思われて人を説得しやすいからである。このとき”客観性”という錦の御旗に隠されてしまうのが、上で説明した代用特性の妥当さである。

数字で測って比べるのは客観性があるのかもしれないが、その結果、本当に測りたいものが測れていないのであれば残念なことである。



よく考えてみると、人生や社会生活の中でも、代用特性の妥当さをよく考えないまま使ってしまい、結果的に不幸になるケースはありそうだ。

たとえば、学校の良し悪しに「偏差値」を、就職先企業の良し悪しに「年収」を代用特性として使ってしまうような場合である。どちらも数字なので客観性があって説得力はありそうだし、ほかとの比較も簡単だ。そういった代用特性を何も考えずに使って入学先や就職先を判断してしまうと、人によっては悲しい境遇に陥ることになるだろう。



数字で測って比べるのは、客観性があり説得力もある。しかしその数字が代用特性である場合、真に測りたい品質特性との関係は十分なのか、妥当であるのかを常に意識しておきたいものである。


29 10月

翻訳業界調査に回答すると結果がもらえる

現在、JTF(日本翻訳連盟)で翻訳業界の調査を実施しています。
翻訳業に関わっている個人も法人も対象で、回答期限は2020年11月13日までとなっています。

・リンク
https://www.jtf.jp/tips/report

参加者は結果が無料でもらえる(買うと2万円以上)ので、ぜひご回答ください。
(ただしJTF会員であればもともと閲覧可です)

翻訳業界に関する貴重な情報が掲載されるので、この業界で仕事をしている方には役立つはずです。
30 6月

「リンギスト」を考える

海外の翻訳業界において「linguist」という職業名はよく見かける。翻訳作業に加え、対訳用語集管理や品質保証など、複数言語に関わるさまざまな仕事をする人を指す。現代の翻訳サービスにおいて欠かせない仕事をしている。しかし日本において「リンギスト」という呼称はあまり聞かない。圧倒的に「翻訳者」が多い。

これを言うと関係者から嫌がられそうだが、翻訳業界はずっと「外国語を使う憧れの仕事・翻訳者」というイメージでビジネスをしてきた。翻訳者になるための講座や情報誌を用意し、厳しいトライアルに合格した人と「翻訳者」という肩書で取引契約をする。もちろん多くの職業にもそのような面はあるし、自分自身も乗っかっている部分はあるので、批判するわけではないが。

「翻訳者」には堅固なイメージがあるため、たとえば対訳用語管理のような仕事があったとしても、「自分は『翻訳者』だから翻訳しかしない」と避けたり、「『翻訳者』でお願いしている手前、用語管理は頼みづらい…」と翻訳会社が躊躇したりする。要するに翻訳者という肩書は、実際のビジネス需要と乖離してしまっている恐れがある。

では、対訳用語管理や品質保証のような仕事はどう扱われているかと言うと、「翻訳の周辺業務」という位置づけである。しかしこれも「翻訳が一番尊い」というイメージから生まれた位置づけに過ぎない。たとえば大規模な翻訳プロジェクトの場合、用語やスタイルの決め方ひとつで、翻訳成果物全体の品質が変わってくる。また、翻訳者の訳文の品質保証をするなら、その誤りを指摘できる程度に翻訳ができなければならない。つまりリンギストの仕事内容は、周辺業務どころか、翻訳サービスにおける中核なのである。



このようにリンギストは重要な役割を担っているのにもかかわらず、仕事の価値はあまり認められていないし、IT化された現代の翻訳サービスの実態とも乖離が生じている。また「リンギスト」という呼称も、日本の翻訳業界内ですら定着していない。

そこで、リンギストの仕事の内容やその重要性を発信するためにウェブサイトを作成した。今後、情報を充実させる予定である。

 https://linguist.work/

※ 上記ウェブサイト上にも書いてありますが、リンギストの仕事をしている人や興味がある人でゆるく意見交換をするために、Facebookのグループを作成しました。関心がある方はご参加ください。非公開グループなので、企業勤務の方もどうぞ。
著書/訳書
血と汗とピクセル
『血と汗とピクセル』


アプリ翻訳実践入門
『アプリ翻訳実践入門』


ソフトウェアグローバリゼーション入門
インプレス刊
『ソフトウェアグローバリゼーション入門』

達人出版会刊
『ソフトウェア・グローバリゼーション入門』


英語語源が魔術に変わる世界では
『英語語源が魔術に変わる世界では』


現場で困らない! ITエンジニアのための英語リーディング
『IT英語リーディング』


アプリケーションをつくる英語
紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
第4回ブクログ大賞受賞】