IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

日本翻訳連盟(JTF)が印刷冊子として発行していた「JTFジャーナル」は、2021年1月からウェブに移行しました。

JTFジャーナル WEB版
https://webjournal.jtf.jp/



これに伴い、河野弘毅さんから私が編集長を引き継ぐことになりました。

印刷版はじっくり読める記事が多数掲載されている点が良かったのですが、2か月に1度の発行だったため、速報性のあるニュースを出しにくいという弱点もありました。そこでウェブ版では、じっくり読める記事も掲載しつつ、翻訳業界の最新ニュースを中心に取り上げる予定です。



じっくり読める記事としては、まず「連載」があります。リンギストに焦点を当てたインタビュー記事連載「リンギストの仕事」と、機械翻訳の最新動向を紹介して考察も加える連載「Transformed」です。

ほかに「特集」として、翻訳祭やJTF主催セミナーなどの報告を掲載します。

また、JTF会員自身で投稿できる機能も追加しました。法人会員はニュースリリース(プレスリリース)、個人会員は(自分で主催する)勉強会情報です。



上記のように、ウェブ版JTFジャーナルで中心となるのは、翻訳業界の最新ニュースです。

大きめのニュースは個別記事としますが、小さめあるいは参考までのニュースは週に1度「週間ニュースまとめ」という形で掲載します。

情報提供のフォームも設置しています。取り上げるべきだと思われる業界ニュースやイベントがあれば、フォームからぜひお知らせください。
このエントリーをはてなブックマークに追加

ニューラル機械翻訳(NMT)のシステムは、使うだけならGoogleなどのものを無料で利用できる。しかしNMTシステムを作るとなると、対訳データが大量(数十〜数百万ペア)に必要な上に、モデルをトレーニングさせるためのGPUが高価(数十万円)であるため、個人はもちろん、中小の翻訳会社でもハードルは高かった。

ところがここ数年くらいで「アダプテーション」と呼ばれる仕組みが広がりつつある。これは、汎用モデルに対し、特定分野の対訳データで追加トレーニングすることを指す。そのため当該分野に強いNMTシステムを構築できる。アダプテーション対応のサービスでは、基本となる汎用対訳データが用意されているので、自分で専門分野の対訳データを「ある程度」準備すればよいだけである。特定の分野や言語で質の高い対訳データを持つ中小翻訳会社や個人は、分野に特化したNMTサービスを有料で提供したり、自社の翻訳ビジネスを拡張したりできるかもしれない。

「ある程度」と書いたが、どのくらいの対訳データ(ペア数)があれば十分かの判断はなかなか難しい。後述するGlobaleseでは1.5万が最小、10万以上を推奨としている(参考)。一方でマイクロソフトの記事を見ると、特定分野(office)において1.5万から10万に増やしてもさほど変わっているようにも思えない。だから最初は「数万」くらいを用意し、様子を見つつ徐々に増やすという方法が良いのだろうか。



アダプテーションに対応したクラウド・サービスはいくつかある。用語登録など機能の有無に違いはあるが、私がまず気になったのはトレーニングのコストだったので、その点を中心に見てみる。

・Google AutoML Translation
https://cloud.google.com/translate/automl/docs

トレーニングは1時間あたりが45米ドルで、上限は300ドルである。1〜10万ペアで4〜5.5時間とあるので、仮に5時間トレーニングすると、225ドル(約2.5万円)かかる。
料金表はこちら

・Microsoft Translator
https://azure.microsoft.com/ja-jp/services/cognitive-services/translator/

100万文字あたり4,480円(毎月200万文字までは無料)で、1回のトレーニングあたりの上限が33,600円である。
料金表はこちら

・IBM Language Translator
https://cloud.ibm.com/docs/language-translator

トレーニング自体は無料のようだが、「拡張」プラン以上が必要で、MT出力には費用がかかる。
料金表はこちら

・Globalese
https://www.globalese-mt.com/

クラウドは月50ユーロ(約6,000円)の固定。
料金表はこちら



GoogleやMicrosoftのように、1回トレーニングするたびに2〜3万円かかるのは、個人や中小企業にはなかなか厳しい。そう考えるとIBMやGlobaleseのトレーニング無料のサービスに目が行く。

しかし実はコストがかかるのはトレーニングだけでない。機械翻訳の出力(文字あたり)にも、サーバー維持にもお金がかかる。結局、トータルで計算しないと……と思っていたとき、すでに計算していた人がいた! 以下は2019年時点のデータだが、非常にありがたい。スライドの前の方には各サービスの機能も掲載されている。





上記の表を参考にすれば、アダプテーションしたNMTシステムを維持するトータルの概算コストは何とか計算できそうだ。

しかし、もしユーザーにそのNMTシステムを有料で使ってもらうビジネスを始めようとしたら、課金システムを別途作らなければならない。筆者のようにITを専門にしている翻訳者であっても、課金システムを用意するのは簡単ではない……と思っていたところ、何とその部分を面倒を見てくれるサービスがあった。

・SYSTRAN Model Studio
https://www.systransoft.com/translation-products/systran-model-studio/

簡単に言うと、自分の対訳データでモデルをトレーニングし、それをマーケットプレイスに公開して有料で使ってもらうという仕組みらしい。確かに、よく考えたらこのようにモデルを仲介するプラットフォーム・ビジネスは成立しそうだ。ただしモデル提供者の取り分がいくらかはすぐに分からなかった。

トレーニング済みモデルのカタログを見ると、すでに256個(2021-01-05時点)が公開されている。多くはSYSTRAN提供だが、それ以外もある。日本語では、日⇔中の医療機器文書から作られたモデルがある(ISE提供)。



上記のような便利なサービスがあったとしても、まずそれ以前に準備すべきは対訳データである。ペアは「数万」は必要そうだと上で書いた。

実は先日、自分の専門分野(IT)で対訳ペアをウェブ上で集めてみた。丸々1日かけて集まったのは3,000弱だった。毎日そのペースで順調に集められれば、2週間くらいで数万にはなりそうではある。しかし、ウェブ上のデータを著作権法上は問題なく入手できたとしても、利用規約で用途外利用が禁止されていることもある。全くのゼロから集めるとしたら、数万でも容易ではないかもしれない。やはり対訳データ所有者と交渉できる企業が有利だろう。

個人や中小企業でNMTサービスを提供する便利な仕組みは現れつつあるが、やはり越えるべきハードルはいくつもありそうだ。
このエントリーをはてなブックマークに追加

ドイツの翻訳業界団体であるBDUが2020年10月に刊行した書籍「Translation Quality in the Age of Digital Transformation」に寄稿しました。

私の担当は第9章「Translation quality and JTFʼs Evaluation Guidelines」です。翻訳品質とはそもそも何か、JTF翻訳品質評価ガイドラインはそれをどう扱っているのか、という話を書いています。

IMG_20201116_102235645


タイトルの通り、書籍の話題は翻訳品質ばかりです。この分野に興味のある方には貴重な資料になるかもしれません。ドイツの翻訳業界団体ですが、ドイツ語ではなく全章が英語で書かれています。なお目次のPDFファイルはこちらからダウンロード可能です。
このエントリーをはてなブックマークに追加

↑このページのトップヘ