rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

6 1月

個人や中小企業で提供する分野特化の機械翻訳サービス

ニューラル機械翻訳(NMT)のシステムは、使うだけならGoogleなどのものを無料で利用できる。しかしNMTシステムを作るとなると、対訳データが大量(数十〜数百万ペア)に必要な上に、モデルをトレーニングさせるためのGPUが高価(数十万円)であるため、個人はもちろん、中小の翻訳会社でもハードルは高かった。

ところがここ数年くらいで「アダプテーション」と呼ばれる仕組みが広がりつつある。これは、汎用モデルに対し、特定分野の対訳データで追加トレーニングすることを指す。そのため当該分野に強いNMTシステムを構築できる。アダプテーション対応のサービスでは、基本となる汎用対訳データが用意されているので、自分で専門分野の対訳データを「ある程度」準備すればよいだけである。特定の分野や言語で質の高い対訳データを持つ中小翻訳会社や個人は、分野に特化したNMTサービスを有料で提供したり、自社の翻訳ビジネスを拡張したりできるかもしれない。

「ある程度」と書いたが、どのくらいの対訳データ(ペア数)があれば十分かの判断はなかなか難しい。後述するGlobaleseでは1.5万が最小、10万以上を推奨としている(参考)。一方でマイクロソフトの記事を見ると、特定分野(office)において1.5万から10万に増やしてもさほど変わっているようにも思えない。だから最初は「数万」くらいを用意し、様子を見つつ徐々に増やすという方法が良いのだろうか。



アダプテーションに対応したクラウド・サービスはいくつかある。用語登録など機能の有無に違いはあるが、私がまず気になったのはトレーニングのコストだったので、その点を中心に見てみる。

・Google AutoML Translation
https://cloud.google.com/translate/automl/docs

トレーニングは1時間あたりが45米ドルで、上限は300ドルである。1〜10万ペアで4〜5.5時間とあるので、仮に5時間トレーニングすると、225ドル(約2.5万円)かかる。
料金表はこちら

・Microsoft Translator
https://azure.microsoft.com/ja-jp/services/cognitive-services/translator/

100万文字あたり4,480円(毎月200万文字までは無料)で、1回のトレーニングあたりの上限が33,600円である。
料金表はこちら

・IBM Language Translator
https://cloud.ibm.com/docs/language-translator

トレーニング自体は無料のようだが、「拡張」プラン以上が必要で、MT出力には費用がかかる。
料金表はこちら

・Globalese
https://www.globalese-mt.com/

クラウドは月50ユーロ(約6,000円)の固定。
料金表はこちら



GoogleやMicrosoftのように、1回トレーニングするたびに2〜3万円かかるのは、個人や中小企業にはなかなか厳しい。そう考えるとIBMやGlobaleseのトレーニング無料のサービスに目が行く。

しかし実はコストがかかるのはトレーニングだけでない。機械翻訳の出力(文字あたり)にも、サーバー維持にもお金がかかる。結局、トータルで計算しないと……と思っていたとき、すでに計算していた人がいた! 以下は2019年時点のデータだが、非常にありがたい。スライドの前の方には各サービスの機能も掲載されている。





上記の表を参考にすれば、アダプテーションしたNMTシステムを維持するトータルの概算コストは何とか計算できそうだ。

しかし、もしユーザーにそのNMTシステムを有料で使ってもらうビジネスを始めようとしたら、課金システムを別途作らなければならない。筆者のようにITを専門にしている翻訳者であっても、課金システムを用意するのは簡単ではない……と思っていたところ、何とその部分を面倒を見てくれるサービスがあった。

・SYSTRAN Model Studio
https://www.systransoft.com/translation-products/systran-model-studio/

簡単に言うと、自分の対訳データでモデルをトレーニングし、それをマーケットプレイスに公開して有料で使ってもらうという仕組みらしい。確かに、よく考えたらこのようにモデルを仲介するプラットフォーム・ビジネスは成立しそうだ。ただしモデル提供者の取り分がいくらかはすぐに分からなかった。

トレーニング済みモデルのカタログを見ると、すでに256個(2021-01-05時点)が公開されている。多くはSYSTRAN提供だが、それ以外もある。日本語では、日⇔中の医療機器文書から作られたモデルがある(ISE提供)。



上記のような便利なサービスがあったとしても、まずそれ以前に準備すべきは対訳データである。ペアは「数万」は必要そうだと上で書いた。

実は先日、自分の専門分野(IT)で対訳ペアをウェブ上で集めてみた。丸々1日かけて集まったのは3,000弱だった。毎日そのペースで順調に集められれば、2週間くらいで数万にはなりそうではある。しかし、ウェブ上のデータを著作権法上は問題なく入手できたとしても、利用規約で用途外利用が禁止されていることもある。全くのゼロから集めるとしたら、数万でも容易ではないかもしれない。やはり対訳データ所有者と交渉できる企業が有利だろう。

個人や中小企業でNMTサービスを提供する便利な仕組みは現れつつあるが、やはり越えるべきハードルはいくつもありそうだ。
11 12月

プログラミング英語検定で「年末年始★受験&勉強キャンペーン」

私の会社で主催している「プログラミング英語検定」で、現在「年末年始★受験&勉強キャンペーン」を実施しています。

bbb1cc20f6a24ae382bfab9588669d75

受験チケット(アドバンスト試験とベーシック試験)や公式テキスト「プログラミング英語教本」が当たります。
また、ハズレでも40%オフのクーポンが希望者全員に贈られます。

年末年始にプログラミング英語の力を伸ばしたいと考えている方はぜひご応募ください。
締切は2020年12月16日(水)なので、お早めにどうぞ。

・応募フォームと詳細情報
 https://progeigo.org/news/2020/exam-book-campaign/

以上です。
30 11月

ドイツ業界団体の書籍に寄稿

ドイツの翻訳業界団体であるBDUが2020年10月に刊行した書籍「Translation Quality in the Age of Digital Transformation」に寄稿しました。

私の担当は第9章「Translation quality and JTFʼs Evaluation Guidelines」です。翻訳品質とはそもそも何か、JTF翻訳品質評価ガイドラインはそれをどう扱っているのか、という話を書いています。

IMG_20201116_102235645


タイトルの通り、書籍の話題は翻訳品質ばかりです。この分野に興味のある方には貴重な資料になるかもしれません。ドイツの翻訳業界団体ですが、ドイツ語ではなく全章が英語で書かれています。なお目次のPDFファイルはこちらからダウンロード可能です。
著書/訳書
血と汗とピクセル
『血と汗とピクセル』


アプリ翻訳実践入門
『アプリ翻訳実践入門』


ソフトウェアグローバリゼーション入門
インプレス刊
『ソフトウェアグローバリゼーション入門』

達人出版会刊
『ソフトウェア・グローバリゼーション入門』


英語語源が魔術に変わる世界では
『英語語源が魔術に変わる世界では』


現場で困らない! ITエンジニアのための英語リーディング
『IT英語リーディング』


アプリケーションをつくる英語
紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
第4回ブクログ大賞受賞】