rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

翻訳/L10N

8 5月

個人でもトレーニングできそうなNMTシステム

マイクロソフトが提供する機械翻訳サービス「Microsoft Translator」が更新された。大きな改善の1つとして、ニューラルMTをカスタマイズできる機能が追加されている。

Customized neural machine translation with Microsoft Translator
https://www.microsoft.com/en-us/research/blog/customized-neural-machine-translation-microsoft-translator/

記事を読むと、マイクロソフトの汎用MTシステムに対し、ユーザーが対訳文を追加することで、システムをトレーニングしてカスタマイズできるようだ。自分の専門分野や社内文書でトレーニングすることで、その分野により適合した訳文が出力されるようになる。
ただし、最低でも2,000以上の対訳文セットが必要とある。

以下の図を見ると、対訳を10,000(Very small)、10,000〜50,000(Small)、50,000〜10,000(Medium)、または100,000+(Large)追加してBLEU値を計算しているが、SmallやMedium程度でもそこそこの改善が見られるようだ。

Build_Table
引用元:https://www.microsoft.com/en-us/research/blog/customized-neural-machine-translation-microsoft-translator/

しかし、私がこの記事を読んで驚いたのはこの点である:
…, the computing power necessary to custom train represents less than 1% of the GPU computing power necessary if training were to start from a blank slate model.

なんと、ゼロからトレーニングする場合に比べ、GPU使用は1%未満で済むようだ。
実のところ、自分でトレーニングして自分(自社)用NMTシステムを作ることは可能である。たとえばOpenNMTのようなオープンソースのNMTソフトウェアも無料で入手できる。
ところが、GPUというハードウェアは数十万円もして高価な上、トレーニングにかなりの時間(数日では済まない)がかかる。

これは一見、地味なニュースに思えるかもしれないが、翻訳会社の視点からすると実はかなり大きなニュースではないだろうか。
数万程度の対訳セットなら中小規模の翻訳会社、場合によっては個人翻訳者でも準備できる。
自分の専門分野で訳してきた対訳の蓄積があれば、自分用のNMTシステムを簡単に構築できそうだ(もちろん法的側面のクリアが必要かもしれないが)。
これまでNMT導入に遅れたり、予算がなかったりした翻訳会社も手が届く。

なお、通常はトレーニング時に、対訳は1文ずつセットにしておかなければならない。しかしマイクロソフトのは文章に自動的にアラインメント(1文ずつのセットに揃えること)をかけてくれるようだ。100%完璧ではないかもしれないが、これで中小企業や個人はさらに楽になる。

OpenNMTは手間がかかるので試したことはなかったが、こちらはハードルがさらに低そうなので、時間があるときに試してみたい。
23 4月

ヨーロッパ翻訳業界調査2018年版を読む

ヨーロッパ翻訳業界調査の2018年版が4/21に出たようです。
調査協力しているGALAのサイトなどからPDFファイルを取得できます。

2018 Language Industry Survey -- Expectations and Concerns of the European Language Industry
http://www.gala-global.org/sites/default/files/uploads/pdfs/2018%20Language%20Industry%20Survey%20Report.pdf

ヨーロッパは翻訳市場としては北米やアジアよりも大きく、日本にはない取り組みもしているので、参考になります。
以下、調査結果で個人的に気になった点をいくつか挙げてみます。

◆単価は改善傾向

単価は2016年あたりの予測や実績と比べると、改善傾向のようです。
2018年は、翻訳会社(LSC)も個人もさらに高くなると予想しています。




◆翻訳会社でMTPEが増えそう



翻訳会社では、40%が外注(Outsourcing)を始めたい/増やしたいようです。さらにそれよりもMTPEが高く、グラフでは70%近くになっています。
一方で、クラウドソーシングとオフショアは低いままです。
このグラフは数字が独特で、「始めたい x 2 + 増やしたい - 止めたい x 2 - 減らしたい」で計算しています。

◆2割程度が機械翻訳を日常的に使う



企業も個人も、2割ほどが機械翻訳を日常的に使っているようです。
日常的ではないにせよ、企業も個人も4割以上が使っています。逆にまったく使わないのが、企業で3割、個人4割弱。
個人にも結構浸透しているようです。
しかも、以下の図にあるように、なんと過半数が無料のGoogle翻訳です。



◆翻訳修士号はあまり浸透せず

ヨーロッパには翻訳で修士号(EMT)が取れる学校があります。それを知っているか、知っている場合は採用時に考慮するかどうかという調査です。



約半分が知らず(No)、知っていて採用時に考慮するが13%。
認知度はごくわずかに上がっているようだが、採用時に考慮する割合は去年(20%)より減っているようだ…。

◆ポジティブ/ネガティブなトレンド



ポジティブな3大トレンドは、なし(None)が29%、需要増(Demand)が16%、分からない(Don't know)が9%と、何とも悲しい内容です。
一方、ネガティブな3大トレンドは具体的で、価格圧力(Price pressure)が38%、MTが21%、競合や競争(Competition)が8%です。


なお、2017年と2016年のときもブログ記事にしているので、過去の調査が気になればご覧ください。

・ヨーロッパ翻訳業界調査2017年版を読む
 http://blog.nishinos.com/archives/5211703.html
・ヨーロッパ翻訳業界調査2016年版を読む
 http://blog.nishinos.com/archives/5185598.html

以上です。
16 2月

翻訳業界のトライアル制度は改善できるか

フリーランス翻訳者として翻訳会社と取引をしたい場合、翻訳業界では「トライアル」を受けることが一般的だ。簡単に言うと翻訳試験で、これに合格すると翻訳会社に登録でき、仕事をもらえるようになる。私自身も20年近く前にトライアルを受けて翻訳者になった。

トライアルという慣習あるいは制度は翻訳業界に浸透しており、当たり前のことなので根本的な部分で疑問を呈する業界人はあまりいない。本記事ではトライアル制のメリットとデメリット、さらに現在のトライアル制を改善するアイデアを書いてみたい。


◆トライアル制のメリットとデメリット

業界全体として見たとき、トライアル制度の最大のメリットは、各翻訳会社のニーズに合致した翻訳者と取引できる点にあると思う。
翻訳会社はソース・クライアントから仕事をもらい、それをさらに翻訳者に依頼する。そのためクライアントの特徴や好みに合った翻訳ができる翻訳者を必要としている。だからトライアルではクライアントからもらう仕事に近い原文が出題されるケースが多い。そういったトライアルを通れば、翻訳会社にとっては戦力となる。
(たまにトライアルで不合格になって落ち込む人もいるが、翻訳力がないというよりも、単に「好みに合わなかった」ということもあるので、それほど悲しむ必要もない)

一方でデメリットは、翻訳会社と翻訳者が一対一で試験を受けることになるため、大きなマッチング・コストがかかるということだと思う。
たとえば翻訳者aが取引先を広げたい場合、翻訳会社A、翻訳会社B、翻訳会社Cとそれぞれのトライアルを受けなければならない。
翻訳会社から見ても同じである。A社は課題を作った上で、翻訳者a、b、c、d、e、f…から送られてくる解答を採点することになる。候補者を絞るために「翻訳実務経験◯年以上」と受験資格を限定する会社も多い(そのため未経験だが有能な翻訳者を獲得する機会を逸している)。
現在のトライアルはそれぞれが一対一の試験になるため、業界全体で見ると、膨大な数のトライアルが発生していることになる。翻訳会社と翻訳者をマッチさせる機能があるので、マッチング・コストと考えられる。図にするとこうなる:



上記のメリットとデメリットをまとめると、各翻訳会社のニーズに合った翻訳者と取引できる一方で、大きなマッチング・コストがかかるということである。


◆トライアル制をどう変えるか

マッチング・コストを低減させるのに有効なのは、外部に「共通試験」のようなものを設けることだと思われる。これにより、各翻訳者は1回共通試験を受けるだけでよいし、翻訳会社は自社でトライアル課題を作る必要も、各翻訳者を採点する必要もない。再び図にするとこうなる:




ただしこの場合、マッチング・コストは下がるものの、「各翻訳会社のニーズに合った翻訳者と取引できる」という最大のメリットも無くなってしまう。共通試験で出題できるのは、いわゆる最大公約数的な問題だからだ。
そのため、メリットは残しつつ、マッチング・コストを部分的にでも下げられるという仕組みが望ましい。共通試験がトライアルを完全に代替するというより、一部のみを担うということだ。たとえば考えられるのは、
・共通試験合格者は、簡易版トライアルを受けられる
・共通試験合格者は、実務経験なしで本トライアルを受けられる
といった使い方だろうか。


◆ほんやく検定の果たす役割

もし翻訳者と翻訳会社とをつなぐ共通試験になり得るとすれば、それはやはり日本翻訳連盟(JTF)が実施している「ほんやく検定」だと思われる。というのも、JTF会員はフリーランス翻訳者と翻訳会社から成るためだ。そのため両者をつなぐ共通試験として受け入れられやすい。

ただし、共通試験になる条件としては、検定の問題が実際のトライアルに近い内容である必要があると思われる。そういう内容になって初めて(一部だけでも)トライアルを代替できる。
私は現在JTFの理事であるため軽率なことは言えず、個人的な意見ということになるが、その方向についても模索したいと考えている。

(※ 図はAutoDrawで書きました。)
5 2月

ホフスタッター氏による機械翻訳考察

『ゲーデル、エッシャー、バッハ』という本で有名なダグラス・ホフスタッター氏が機械翻訳(Google翻訳)について批判的に考察した記事を書いています。
英語の長文なので誰にでもお勧めできるわけではないですが、簡単にまとめると、いまの機械翻訳はあくまでデータを機械処理をしているだけであって、人間がやるのと同等の「翻訳」ではないという点です。人間と同じ「翻訳」を実現するにはまだまだ時間がかかりそうだと述べています。

The Shallowness of Google Translate
https://www.theatlantic.com/technology/archive/2018/01/the-shallowness-of-google-translate/551570/
(補足:本文中で仏独中の対訳サンプル部分が出てきますが、そこは飛ばしても大丈夫です)



印象に残った部分をいくつか引用し、私のコメントを付けてみます。

Google Translate isn’t familiar with situations, period. It’s familiar solely with strings composed of words composed of letters.
Google翻訳では文章が書かれた「状況」まで考慮せず、字面だけしか扱っていないということですね。人が言葉を解釈するには、その場の雰囲気なり常識なり人間関係なり、テキストの「外」にある情報も必要です。いまの機械翻訳ではそれをしていません。

Well, I chuckled at these poor shows, relieved to see that we aren’t, after all, so close to replacing human translators by automata.
人間の翻訳者が機械にすぐに置き換えられるわけではないと言っています。

I am not, in short, moving straight from words and phrases in Language A to words and phrases in Language B. Instead, I am unconsciously conjuring up images, scenes, and ideas, dredging up experiences I myself have had (or have read about, or seen in movies, or heard from friends), and only when this nonverbal, imagistic, experiential, mental “halo” has been realized—only when the elusive bubble of meaning is floating in my brain—do I start the process of formulating words and phrases in the target language, and then revising, revising, and revising.
翻訳者は言語Aから言語Bに直接置き換えているわけではなく、イメージを思い浮かべ、その意味を捉えてターゲット言語を作り出し、推敲を重ねるというプロセスを踏んでいるということです。
これは翻訳をやっている人ならよく分かる話だと思います。原文はあくまで元ネタであり、それを使って訳文を新たに書き起こしているという感じでしょうか。

To understand such failures, one has to keep the eliza effect in mind. The bailingual engine isn’t reading anything—not in the normal human sense of the verb “to read.” It’s processing text. The symbols it’s processing are disconnected from experiences in the world.
ELIZA効果」というものがあるそうです。これはコンピューターをいわば擬人化してしまうということです。コンピューターは単にテキスト処理しているのに、それを「読む」という人間の行為になぞらえて考えてしまうということです。
私も機械"翻訳"と呼ぶのは本当は良くないのではないかと前々から思っていました。「翻訳」と名付けてしまった時点で、それは人間の翻訳という行為と同じであると誤認してしまいます。

Despite my negativism, Google Translate offers a service many people value highly: It effects quick-and-dirty conversions of meaningful passages written in language A into not necessarily meaningful strings of words in language B. As long as the text in language B is somewhat comprehensible, many people feel perfectly satisfied with the end product. If they can “get the basic idea” of a passage in a language they don’t know, they’re happy. This isn’t what I personally think the word “translation” means, but to some people it’s a great service, and to them it qualifies as translation.
Google翻訳は便利で「大体の意味がわかる」と喜ぶ人も多いが、それは自分が考える「翻訳」とは呼ばない、ということです。役に立つサービスではあるが、翻訳ではないということです。



この記事を読んだとき、私が考えている機械翻訳像とかなり近くて驚きました。たとえば以前、こんなブログ記事を書きました:
・機械で「翻訳」をしているのか
http://blog.nishinos.com/archives/5023862.html
・機械翻訳は「翻訳」をしていない(が役に立つ)
http://blog.nishinos.com/archives/5300408.html


いまは人工知能ブームとあいまって、いわゆる文系で翻訳を研究しているような人も機械翻訳にのめり込んでいる状況です(研究費がもらえますから…)。
こういう熱狂のときにこそ批判的に捉え、機械に何ができて何ができないのか、「翻訳」とは何なのか、しっかり考察しておきたいものです。
4 1月

機械翻訳の自動評価が簡単にできるソフトウェアを作成

機械翻訳の「自動評価」には、BLEUなどのスコアがよく用いられます。
これは人間が(お手本として)訳した参照訳と、機械翻訳の訳とがどれほど近いかを計算して評価する方法です。

「I have a pen.」という英語原文に対し、人間がお手本として「私はペンを持つ。」と翻訳したとします。
同じ原文に対し、機械翻訳システムAとBが以下のように出力したとします。
・システムA: 私はペンを所有する。
・システムB: 俺はペンを持つ。

どちらもどちらという気もしますが、たとえばBLEUで計算すると、Aのスコアは「0.4347」、Bのスコアは「0.7598」となり、Bの方がより参照訳に近いという結果になります。



これまでも自動評価を実行できるソフトウェアは存在していたのですが、コマンド入力が基本だったので、慣れたITエンジニアでないとハードルが高いという欠点がありました。
昨今は機械翻訳が話題にされることも多く、翻訳業界の人であればエンジニアでなくても自動評価がどのようなものか把握しておく必要はあるでしょう。

そこで、コマンドを使わなくてもGUIで簡単に自動評価をできるソフトウェアを作ってみました。
Windows版とMac版があります。
Windows版はWindows 10で、Mac版はOS 10.12で動作確認しています。それ以外のOSで動くかは不明です。
自動評価でよく使われる「BLEU」と、Google独自のBLEUスコアである「GLEU」が計算できます。



使い方を説明します。

【1】まず以下のURLからソフトウェアをダウンロードしてください。画面右上にある下矢印ボタンでダウンロードできます(サイズはそこそこ大きい)。
また本ソフトウェアは無償でご利用いただけます。

こちらに移動しました(2018/01/19): http://www.nishinos.com/simple-mt-score
・Windows版
https://goo.gl/ytqjcd
・Mac版
https://goo.gl/pMgt5b


【2-A】Windows版の場合、zipを解凍すると以下のフォルダーが出現します。

1_files

ここで「SimpleMTScore.exe」をダブルクリックすると起動します。

【2-B】Mac版の場合、zipを解凍してSimpleMTScore.appをダブルクリックすると起動します。

【3】起動後、まず「参照訳を入力:」の下に、お手本となる訳を入力します。複数のセンテンスがある場合、改行で区切ります。同様に「評価訳を入力:」の下に機械翻訳の出力を入れます。
参照訳と評価訳のセンテンスは数を同じにし、各センテンスが対応するようにしておいてください。

2_gui

【4】続いて「実行」を押すと、BLEUスコアとGLEUスコアが表示されます。


その他の関連情報はソフトウェア内の「ヘルプ」メニューからご覧ください。
また、バグなどがあったら biz@nishinos.com までお知らせいただけると幸いです。

以上です。
★最新著書★
アプリ翻訳実践入門 『アプリ翻訳実践入門』
筆者について
西野 竜太郎
(Ryutaro Nishino)

翻訳者。合同会社グローバリゼーションデザイン研究所・代表社員。日本翻訳連盟・理事。
プロフィールや連絡先などについてはこちらをご覧ください。
Twitterアカウント
RSS フィード
著書
ソフトウェアグローバリゼーション入門
インプレス刊
『ソフトウェアグローバリゼーション入門』

達人出版会刊
『ソフトウェア・グローバリゼーション入門』


英語語源が魔術に変わる世界では
『英語語源が魔術に変わる世界では』


現場で困らない! ITエンジニアのための英語リーディング
『IT英語リーディング』


アプリケーションをつくる英語
紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
第4回ブクログ大賞受賞】