ニューラル機械翻訳(NMT)のシステムは、使うだけならGoogleなどのものを無料で利用できる。しかしNMTシステムを作るとなると、対訳データが大量(数十〜数百万ペア)に必要な上に、モデルをトレーニングさせるためのGPUが高価(数十万円)であるため、個人はもちろん、中小の翻訳会社でもハードルは高かった。

ところがここ数年くらいで「アダプテーション」と呼ばれる仕組みが広がりつつある。これは、汎用モデルに対し、特定分野の対訳データで追加トレーニングすることを指す。そのため当該分野に強いNMTシステムを構築できる。アダプテーション対応のサービスでは、基本となる汎用対訳データが用意されているので、自分で専門分野の対訳データを「ある程度」準備すればよいだけである。特定の分野や言語で質の高い対訳データを持つ中小翻訳会社や個人は、分野に特化したNMTサービスを有料で提供したり、自社の翻訳ビジネスを拡張したりできるかもしれない。

「ある程度」と書いたが、どのくらいの対訳データ(ペア数)があれば十分かの判断はなかなか難しい。後述するGlobaleseでは1.5万が最小、10万以上を推奨としている(参考)。一方でマイクロソフトの記事を見ると、特定分野(office)において1.5万から10万に増やしてもさほど変わっているようにも思えない。だから最初は「数万」くらいを用意し、様子を見つつ徐々に増やすという方法が良いのだろうか。



アダプテーションに対応したクラウド・サービスはいくつかある。用語登録など機能の有無に違いはあるが、私がまず気になったのはトレーニングのコストだったので、その点を中心に見てみる。

・Google AutoML Translation
https://cloud.google.com/translate/automl/docs

トレーニングは1時間あたりが45米ドルで、上限は300ドルである。1〜10万ペアで4〜5.5時間とあるので、仮に5時間トレーニングすると、225ドル(約2.5万円)かかる。
料金表はこちら

・Microsoft Translator
https://azure.microsoft.com/ja-jp/services/cognitive-services/translator/

100万文字あたり4,480円(毎月200万文字までは無料)で、1回のトレーニングあたりの上限が33,600円である。
料金表はこちら

・IBM Language Translator
https://cloud.ibm.com/docs/language-translator

トレーニング自体は無料のようだが、「拡張」プラン以上が必要で、MT出力には費用がかかる。
料金表はこちら

・Globalese
https://www.globalese-mt.com/

クラウドは月50ユーロ(約6,000円)の固定。
料金表はこちら



GoogleやMicrosoftのように、1回トレーニングするたびに2〜3万円かかるのは、個人や中小企業にはなかなか厳しい。そう考えるとIBMやGlobaleseのトレーニング無料のサービスに目が行く。

しかし実はコストがかかるのはトレーニングだけでない。機械翻訳の出力(文字あたり)にも、サーバー維持にもお金がかかる。結局、トータルで計算しないと……と思っていたとき、すでに計算していた人がいた! 以下は2019年時点のデータだが、非常にありがたい。スライドの前の方には各サービスの機能も掲載されている。





上記の表を参考にすれば、アダプテーションしたNMTシステムを維持するトータルの概算コストは何とか計算できそうだ。

しかし、もしユーザーにそのNMTシステムを有料で使ってもらうビジネスを始めようとしたら、課金システムを別途作らなければならない。筆者のようにITを専門にしている翻訳者であっても、課金システムを用意するのは簡単ではない……と思っていたところ、何とその部分を面倒を見てくれるサービスがあった。

・SYSTRAN Model Studio
https://www.systransoft.com/translation-products/systran-model-studio/

簡単に言うと、自分の対訳データでモデルをトレーニングし、それをマーケットプレイスに公開して有料で使ってもらうという仕組みらしい。確かに、よく考えたらこのようにモデルを仲介するプラットフォーム・ビジネスは成立しそうだ。ただしモデル提供者の取り分がいくらかはすぐに分からなかった。

トレーニング済みモデルのカタログを見ると、すでに256個(2021-01-05時点)が公開されている。多くはSYSTRAN提供だが、それ以外もある。日本語では、日⇔中の医療機器文書から作られたモデルがある(ISE提供)。



上記のような便利なサービスがあったとしても、まずそれ以前に準備すべきは対訳データである。ペアは「数万」は必要そうだと上で書いた。

実は先日、自分の専門分野(IT)で対訳ペアをウェブ上で集めてみた。丸々1日かけて集まったのは3,000弱だった。毎日そのペースで順調に集められれば、2週間くらいで数万にはなりそうではある。しかし、ウェブ上のデータを著作権法上は問題なく入手できたとしても、利用規約で用途外利用が禁止されていることもある。全くのゼロから集めるとしたら、数万でも容易ではないかもしれない。やはり対訳データ所有者と交渉できる企業が有利だろう。

個人や中小企業でNMTサービスを提供する便利な仕組みは現れつつあるが、やはり越えるべきハードルはいくつもありそうだ。