IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

カテゴリ: 翻訳/L10N

翻訳の業界団体である日本翻訳連盟(JTF)の理事を任期満了で6月8日に退任しました。
2017年に就任したので、ちょうど5年間でした。

振り返ってみると、(自分で言うのもあれですが)いくつか仕事ができたように思います。

▼個人会員の年会費の半額化
個人会員の年会費は2019年まで2万円でした。個人翻訳者であれば年間売上が数百万円程度の人が多いでしょう。法人会員に比べて年商に対する負担額が大きすぎるということで、個人理事4人(高橋聡、齊藤貴昭、井口富美子の各氏と私)で共同提案し、2020年から年会費1万円が実現しました。
提案時に法人理事は反対するどころか、むしろ積極的に賛成してくれて、代わりに法人会員の年会費を1万円値上げすることで決着しました。個人と法人(翻訳会社)は対立しているのではと思われがちですが、実はかなり話を聞いてくれます。

▼翻訳品質評価ガイドラインの策定
当時JTFでは日本語スタイルガイドを出していたのですが、さらにスタイルも含めた翻訳品質全体を扱おうということで、「翻訳品質評価ガイドライン」の策定を2016年から始めました。
2017年に翻訳品質委員会の委員長だった田中千鶴香氏が急逝されたので、私が委員長を引き継いで2018年に完成しました(PDF)。
翻訳品質評価のISO規格はずっと議論されているものの、立ち消えたりキャンセルされたりしています(記事)。ようやくもうすぐ出来上がるようですが、話を聞く限り、基本的な考え方はJTFのガイドラインと大きくは違わない印象です。JTFのを理解しておけば、ISO規格が出来上がってもそれほど違和感なく受け入れられるのではと思います。

▼ほんやく検定合格者に対するトライアル優遇措置
ほんやく検定に合格したら、翻訳会社のトライアルを免除または軽減してもらえる仕組みを2019年に提案しました(詳細記事)。
直後にコロナが流行し始め、それに伴って在宅でできる翻訳者になりたい人が増える一方で、怪しげな翻訳講座も登場しました。トライアルは実務経験が要求されることが多く、実務経験がないまたは浅い人だと受験すらできません。そんな状況の中、翻訳者になるきちんとしたルートを1つ示せたのは良かったのではと感じています。

他にも、翻訳学校受講生はJTFセミナーなどで割引が受けられるようにしたりとか、JTFジャーナルをウェブに移行したりとか、思い出すといろいろとやったような気がします。


理事になると上記のように業界を変える提案もできるので、強い気持ちがある人は挑戦してもよいでしょう。JTF理事になるステップは面倒ですが、こうです:
 1. JTF会員になる
 2. 現任理事からの推薦状が必要なので、集会などに参加して理事とつながりを作る
 3. 立候補呼びかけが2年に1回あるので、推薦状をもらって立候補する


ところで今回私が理事を継続せずに任期満了で退任するのは、やはり実務翻訳から遠ざかりつつあるのが一番大きな理由です。
今後は自社でやっているプログラミング英語教育関係(プログラミング英語検定など)や出版関連の仕事に力を入れたいなと思っているところです。
このエントリーをはてなブックマークに追加

機械翻訳の自動評価をウェブ上でできる「シンプルMTスコア」を移転しました。

新しいURLはこちらです:
https://nishinos.com/mtscore/





機能自体は同じですが、アプリケーションの構成を(勉強がてら)変更してみました。
自然言語処理関係はPythonが強いため、今まで同じくPythonが動くウェブフレームワーク(Django)を使っていました。
今回、処理するサーバーはGoogle Cloud FunctionsでWeb API化し、それに対してWordPressからリクエストして結果を表示する形としました。
今更ながらいわゆるFaaSを初めてCloud Functionsで試してみたのですが、ちょっとしたサーバー側処理を作るのが非常に楽ですね。
このエントリーをはてなブックマークに追加

日本翻訳連盟(JTF)が印刷冊子として発行していた「JTFジャーナル」は、2021年1月からウェブに移行しました。

JTFジャーナル WEB版
https://webjournal.jtf.jp/



これに伴い、河野弘毅さんから私が編集長を引き継ぐことになりました。

印刷版はじっくり読める記事が多数掲載されている点が良かったのですが、2か月に1度の発行だったため、速報性のあるニュースを出しにくいという弱点もありました。そこでウェブ版では、じっくり読める記事も掲載しつつ、翻訳業界の最新ニュースを中心に取り上げる予定です。



じっくり読める記事としては、まず「連載」があります。リンギストに焦点を当てたインタビュー記事連載「リンギストの仕事」と、機械翻訳の最新動向を紹介して考察も加える連載「Transformed」です。

ほかに「特集」として、翻訳祭やJTF主催セミナーなどの報告を掲載します。

また、JTF会員自身で投稿できる機能も追加しました。法人会員はニュースリリース(プレスリリース)、個人会員は(自分で主催する)勉強会情報です。



上記のように、ウェブ版JTFジャーナルで中心となるのは、翻訳業界の最新ニュースです。

大きめのニュースは個別記事としますが、小さめあるいは参考までのニュースは週に1度「週間ニュースまとめ」という形で掲載します。

情報提供のフォームも設置しています。取り上げるべきだと思われる業界ニュースやイベントがあれば、フォームからぜひお知らせください。
このエントリーをはてなブックマークに追加

ニューラル機械翻訳(NMT)のシステムは、使うだけならGoogleなどのものを無料で利用できる。しかしNMTシステムを作るとなると、対訳データが大量(数十〜数百万ペア)に必要な上に、モデルをトレーニングさせるためのGPUが高価(数十万円)であるため、個人はもちろん、中小の翻訳会社でもハードルは高かった。

ところがここ数年くらいで「アダプテーション」と呼ばれる仕組みが広がりつつある。これは、汎用モデルに対し、特定分野の対訳データで追加トレーニングすることを指す。そのため当該分野に強いNMTシステムを構築できる。アダプテーション対応のサービスでは、基本となる汎用対訳データが用意されているので、自分で専門分野の対訳データを「ある程度」準備すればよいだけである。特定の分野や言語で質の高い対訳データを持つ中小翻訳会社や個人は、分野に特化したNMTサービスを有料で提供したり、自社の翻訳ビジネスを拡張したりできるかもしれない。

「ある程度」と書いたが、どのくらいの対訳データ(ペア数)があれば十分かの判断はなかなか難しい。後述するGlobaleseでは1.5万が最小、10万以上を推奨としている(参考)。一方でマイクロソフトの記事を見ると、特定分野(office)において1.5万から10万に増やしてもさほど変わっているようにも思えない。だから最初は「数万」くらいを用意し、様子を見つつ徐々に増やすという方法が良いのだろうか。



アダプテーションに対応したクラウド・サービスはいくつかある。用語登録など機能の有無に違いはあるが、私がまず気になったのはトレーニングのコストだったので、その点を中心に見てみる。

・Google AutoML Translation
https://cloud.google.com/translate/automl/docs

トレーニングは1時間あたりが45米ドルで、上限は300ドルである。1〜10万ペアで4〜5.5時間とあるので、仮に5時間トレーニングすると、225ドル(約2.5万円)かかる。
料金表はこちら

・Microsoft Translator
https://azure.microsoft.com/ja-jp/services/cognitive-services/translator/

100万文字あたり4,480円(毎月200万文字までは無料)で、1回のトレーニングあたりの上限が33,600円である。
料金表はこちら

・IBM Language Translator
https://cloud.ibm.com/docs/language-translator

トレーニング自体は無料のようだが、「拡張」プラン以上が必要で、MT出力には費用がかかる。
料金表はこちら

・Globalese
https://www.globalese-mt.com/

クラウドは月50ユーロ(約6,000円)の固定。
料金表はこちら



GoogleやMicrosoftのように、1回トレーニングするたびに2〜3万円かかるのは、個人や中小企業にはなかなか厳しい。そう考えるとIBMやGlobaleseのトレーニング無料のサービスに目が行く。

しかし実はコストがかかるのはトレーニングだけでない。機械翻訳の出力(文字あたり)にも、サーバー維持にもお金がかかる。結局、トータルで計算しないと……と思っていたとき、すでに計算していた人がいた! 以下は2019年時点のデータだが、非常にありがたい。スライドの前の方には各サービスの機能も掲載されている。





上記の表を参考にすれば、アダプテーションしたNMTシステムを維持するトータルの概算コストは何とか計算できそうだ。

しかし、もしユーザーにそのNMTシステムを有料で使ってもらうビジネスを始めようとしたら、課金システムを別途作らなければならない。筆者のようにITを専門にしている翻訳者であっても、課金システムを用意するのは簡単ではない……と思っていたところ、何とその部分を面倒を見てくれるサービスがあった。

・SYSTRAN Model Studio
https://www.systransoft.com/translation-products/systran-model-studio/

簡単に言うと、自分の対訳データでモデルをトレーニングし、それをマーケットプレイスに公開して有料で使ってもらうという仕組みらしい。確かに、よく考えたらこのようにモデルを仲介するプラットフォーム・ビジネスは成立しそうだ。ただしモデル提供者の取り分がいくらかはすぐに分からなかった。

トレーニング済みモデルのカタログを見ると、すでに256個(2021-01-05時点)が公開されている。多くはSYSTRAN提供だが、それ以外もある。日本語では、日⇔中の医療機器文書から作られたモデルがある(ISE提供)。



上記のような便利なサービスがあったとしても、まずそれ以前に準備すべきは対訳データである。ペアは「数万」は必要そうだと上で書いた。

実は先日、自分の専門分野(IT)で対訳ペアをウェブ上で集めてみた。丸々1日かけて集まったのは3,000弱だった。毎日そのペースで順調に集められれば、2週間くらいで数万にはなりそうではある。しかし、ウェブ上のデータを著作権法上は問題なく入手できたとしても、利用規約で用途外利用が禁止されていることもある。全くのゼロから集めるとしたら、数万でも容易ではないかもしれない。やはり対訳データ所有者と交渉できる企業が有利だろう。

個人や中小企業でNMTサービスを提供する便利な仕組みは現れつつあるが、やはり越えるべきハードルはいくつもありそうだ。
このエントリーをはてなブックマークに追加

ここ何年かの間、「翻訳の品質とは何か?」、「それをどう測定できるのか?」という問題に取り組んできた。一応の結論として「JTF翻訳品質評価ガイドライン」という形で公開できた。

もちろん一直線に結論に到達したわけではなく、悩ましい問題もあった。従来、業界では「翻訳品質はエラーの数で測る」という手法が広く用いられてきた。たとえば用語集違反が1つあれば、それに深刻度を掛けて点数にする。点数を合計し、低ければ高品質とする考え方だ。出るのは数字だし、他と比較も可能なので、客観性のある方法だと考えられている。

しかし、そもそも翻訳の良し悪しをエラー数だけで測ってよいのかという疑問はあった(記事)。たとえば広告の場合、用語集やスタイルガイドに違反した(=エラー)としても、最終読者の心を動かすような訳文に仕上げたほうが、発注者も翻訳者もうれしいはずだ。そのため上記ガイドラインでは「適切な場面では、主観評価なども組み入れて評価しましょう」といった主張になっている。

◆ 代用特性とは

何かの品質特性(上記なら翻訳の良し悪し)を直接的に測るのが難しい場合、代わりに別のもの(上記ならエラー数)で測る。品質管理分野ではこの別のものを「代用特性」と呼ぶ。たとえばQC検定4級のテキストにはこう説明されている。
要求される品質特性を直接測定することが困難な場合、同等又は近似の評価として用いる他の品質特性。

「品質管理検定(QC検定)4級の手引き Ver.3.1」p. 40(https://webdesk.jsa.or.jp/pdf/qc/md_4611.pdf


実はこの説明の末尾に重要な一文が書かれている。
代用特性は、要求される品質特性を直接測定しているわけではありません。したがって、要求される品質特性と代用特性との関係を十分に確認することが必要です。

要するに、本当に図りたい品質をその代用特性で測れているのか、その代用特性は妥当なのか、という疑問を常に持てという話である。また、単に測りやすいからという理由で、ある代用特性を利用するのも望ましくないだろう。

翻訳業界で代用特性が使われる場面は、上記のエラー数以外にもある。一例を挙げると「TOEICの点数で機械翻訳の質を測る」ケースである。詳しい測り方はこちらの記事で説明しているが、私も含めて多くの翻訳者は批判的に捉えている。品質特性(=翻訳の質)と代用特性(=TOEIC点数)との間に十分な関係がないのではということである(外国語ができるだけでは翻訳はできない)。

しかしながら、最初に挙げたエラー評価も、TOEIC点数による機械翻訳システム評価も、疑問を持つことなく使われることが多い。あるいは疑問を持ちつつも、仕方なく使っているのかもしれない。というのも数字で出すと比較が容易であるし、客観性があると思われて人を説得しやすいからである。このとき”客観性”という錦の御旗に隠されてしまうのが、上で説明した代用特性の妥当さである。

数字で測って比べるのは客観性があるのかもしれないが、その結果、本当に測りたいものが測れていないのであれば残念なことである。



よく考えてみると、人生や社会生活の中でも、代用特性の妥当さをよく考えないまま使ってしまい、結果的に不幸になるケースはありそうだ。

たとえば、学校の良し悪しに「偏差値」を、就職先企業の良し悪しに「年収」を代用特性として使ってしまうような場合である。どちらも数字なので客観性があって説得力はありそうだし、ほかとの比較も簡単だ。そういった代用特性を何も考えずに使って入学先や就職先を判断してしまうと、人によっては悲しい境遇に陥ることになるだろう。



数字で測って比べるのは、客観性があり説得力もある。しかしその数字が代用特性である場合、真に測りたい品質特性との関係は十分なのか、妥当であるのかを常に意識しておきたいものである。


このエントリーをはてなブックマークに追加

↑このページのトップヘ