IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

Yahoo Japanの「新型コロナワクチン情報まとめ」を見ていたら、次の画像があった。

アストラゼネカの行に「有効性 〜76%」とあり(赤枠)、私はここが気になってしまった。


(出典:https://news.yahoo.co.jp/pages/20210122、閲覧:2021-07-02)


これを見た人は、普通は「最大で76%」と解釈するだろう。日本語で「〜」は「数字の範囲」を示すのが一般的である。例えば共同通信社の『記者ハンドブック』でもその意味で使っている。範囲の右側だけに数字があるので「最大」という解釈になる。最大なのだから、有効性は10%かもしれないし60%かもしれない。

しかし日本語の「〜」によく似た英語の「~」(チルダ)には別の意味がある。「」や「およそ」である。この意味を掲載している辞書は実は少ないのだが、たとえばMerriam-Websterの「tilde」には2bに「the mark used to indicate an approximate value」とある(リンク)。

つまり「〜76%」を見て、私は「約76%」の意味かもしれないと疑ったわけである。仮に元データが英語で、日本語にした際に単に記号を「~」から「〜」に置き換えたという可能性も考慮すると、「最大76%」なのか「76%」なのか判断が悩ましい。

(リンクをたどってアストラゼネカのページを見ると「CI 41.0% to 75.7%」とあり、これを指すならやはり「最大」の意味かもしれないが、医薬分野に疎い私に確証はない)



そもそも英日翻訳時に、単に「~」を「〜」に置き換えることなんてしないだろう、と思う人もいるかもしれないが、実際はよくある。たとえば次の画像は、GoogleのAndroidアプリ開発ガイドで、解像度をまとめた表である。「〜120dpi」などの表記が確認できる。

▼日本語訳

(出典:https://developer.android.com/training/multiscreen/screendensities?hl=ja、閲覧:2021-07-02)

▼英語原文

(出典:https://developer.android.com/training/multiscreen/screendensities、閲覧:2021-07-02)

このように英語の「~」は和訳時に「〜」に単純に置き換えられることがよくある。そして上記画像の「〜」は「数字の範囲」ではなく「約」と解釈するのが適当である。

ただ、これは読者の側ではなく、やはり翻訳をする側に問題があると思われる。というのも、日本語では一般的に「〜」は「数字の範囲」を示すからである。和訳したと言うのであれば、当然日本語の慣習に合わせるべきだろう。



このように英語の「~」と日本語の「〜」は意味が必ずしも一致しない。見た目が似ているから同じ意味だと思って英語を読むと恐ろしい目に遭う。特に厳密に数字を扱っている場合には注意したい。

(なお英語WikipediaのTildeの項目にも詳しい解説がある)
このエントリーをはてなブックマークに追加

住んでいる自治体からワクチン接種券が早い時期に届いており、65歳未満でも自衛隊の大規模接種会場で予約が可能になったため、早速予約した。

予約サイトはパッと見だとあまり洗練された印象は受けなかった。しかも架空番号で予約できてしまうニュースも聞いていたので、正直なところ会場も混乱するのではという不安はあった。



そして接種当日の今日、大手町に向かった。会場の入口はこんな感じで、大規模接種と言っても、密にならないように配慮されていた。



受付を済ませると、予診票などを入れた黄色いクリアフォルダーを渡された。

「黄色の方はこちらです」と言われて気づいたが、どうも4色あるようだ。そして色ごとにビルの違う階に案内される。

「これは、CPUで言うところのクアッドコアでは…」と思った。

色付きのクリアフォルダーであれば、遠くから係員も視認しやすい。色の一部が見えていればよいからだ。「A」や「B」などの文字を書いていたらいちいち止まって確認して案内しないといけないので、そこでボトルネックが発生してしまう。

それから当日は妻と一緒に行ったのだが、「お二人ですか?」と聞かれ、同じ色のフォルダーを渡してもらえた。夫婦で来ている年配の方々も目立つ印象だった。

会場では至るところに係員が立っていて誘導してくれる。コミケに行ったことのある人なら分かってもらえるかもしれないが、「密じゃないコミケ会場」といった感じだ。エレベーターも各色専用となっており、出入りで人がかち合うこともない。

黄色用の階に到着すると、予診票確認、接種と進んでいく。どちらのブースもかなりの数が用意されていた(私は予診票確認で7番に案内されたので、それ以上の数)。

「これは、さらにマルチスレッドになっていたか…」と思った。

接種が終わると、体調を見るために15分待機した。その際、待機時間中に2回目の予約も取ってもらえた。ここまでずっと夫婦一緒に回ってきているので、スケジュールも一緒に調整できる。ともかく効率優先の流れ作業ではなく、そういう部分の気遣いがあるので非常にありがたかった。

2回目の予約手続きには数分かかったが、それも待機時間に含まれるので、最終的には10分ちょっと待機した。これが「予約→待機」ではなく「待機→予約」だったら、丸々15分待つことになってしまうし、会場に人が滞留することにもなる。細かい部分だがきっちり考えられている。

「これは、いわゆるプリフェッチでは…」と感じた。

帰りのエレベーターも各階専用で、密にならないように人数を制限した上でのピストン輸送だった。結局、建物を出るまで密になった状況は一度もなかったし、どこかで長く待たされたという状況もなかった。



当初、予約サイトを使った時点では不安があった。しかし会場内ではうまく導線を組んでボトルネックが排除され、高度な「アナログ並列処理」(あるいは並行処理)みたいなものが実現されていた。しかも単に機械的で冷たい流れ作業でもなく、担当者は親切だった。

批判も受けている大規模接種会場ではあるが、実際のオペレーションはとても素晴らしかったと伝えておきたい。

(※ なお上記のコンピューター関連の比喩の正確性や妥当性は保証できません)

-----
追記(2021-06-19 10:30)

ワクチンで副反応が出る可能性があるため、15分は会場で待機することになっている。そのときは問題なかったが、しばらく経って副反応が出てきた。
モデルナ製を接種した私の場合、5〜6時間後に二日酔いに似た頭痛と倦怠感を覚え、自宅のベッドでしばらく寝ていた。さらに注射した腕の周囲で筋肉痛のような痛みが続き、1日経ってもまだ痛い。

あと、会場から帰宅する際にフジテレビのインタビュー受けていた。今朝の「めざましどようび」で「墨田区民(40代)」として出演している。何年か前にポケモンGOが大ブームになった際も情報番組のインタビューを受けたが、東京にいるとたまにこんなことがある。


このエントリーをはてなブックマークに追加

Zoomなどでビデオ会議をしたら、ある程度の精度で構わないので、自動で文字起こしをしたいことがある。
日本語の自動文字起こし専用サービスもいくつかあるようだが、今回はすでにアカウントを持っているAWSのAmazon Transcribeを試してみた。

詳しい使い方はAWSの説明にあるが、手作業でのステップを簡単に説明すると次のようになる。

  1. AWSのストレージサービスである「S3」にオーディオまたはビデオのファイルをアップロードしておく(対応ファイル形式は、MP3、MP4、WAV、FLAC、AMR、OGG、WebMのようだ)

  2. Transcribeでジョブを作成する。ここでS3上のファイルを指定

  3. 実行し、しばらく待つとジョブが完了する

  4. 文字起こしファイルをダウンロードする


設定で「Speaker identification」(話者特定)をしておくと、自動で話者を認識して分割して書いてくれるので便利だ。
なお、料金は30分の動画で「0.72ドル」(約80円)とのことである。



このようにとても簡単なのであるが、困った点が1つあった。
最後にダウンロードするファイルがJSON形式なのである。JSON自体はテキストファイルなのでどのようなエディターでも開ける。しかし話者特定すると、どこからどこまでを誰が話したといったメタ情報が付加されるため、単純なテキスト構造にはならないのである。



もちろん変換プログラムを自作すればよいが、時間がかかりそうだ……と思っていたところ、やはり作ってくれていた人がいた! ありがたい。

 aws-transcribe-transcript
 https://github.com/trhr/aws-transcribe-transcript

ただしPythonなので、パソコンにPythonがインストールされており、コマンドで操作する必要がある。
まず上記Githubサイトからtranscript.pyをダウンロードし、ローカルのフォルダーにJSONファイルと一緒に置く。そして「python transcript.py asrOutput.json」のように(Macならターミナルから)実行すれば、整形されたテキストファイルが出力される。次のような感じである。



話者は2人(spk_0とspk_1)で、きちんと分割して表示されている。時間(「0:38:29」など)も表示されているので、ビデオを見返す際にも便利だ。

ちなみにブラウザー上で変換できるサービスもあるようだ。こちらはSRTというファイル形式で出力されるが、中身はテキストなのでJSONと同様にエディターで開ける。
ただ、自分のファイル(40分程度の文字起こし)で試したらブラウザーがクラッシュしてしまったので、使い心地は分からなかった。あまり大きなファイルは変換できないのかもしれない。



音声認識自体の精度にまだ課題はあるだろうが、目で見て手で書き起こす手間を考えたら、労力は大幅にカットできそうだ。
このエントリーをはてなブックマークに追加

↑このページのトップヘ