rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

英語

18 10月

GoogleのNgram Viewerに高度な機能

TechCrunchの記事によると、GoogleのNgram Viewerに新しく高度な検索機能が付いたようです。

GoogleのNgram Viewerが新機能を加えてアップデート, ワイルドカードも使える
http://jp.techcrunch.com/2013/10/18/20131017google-updates-ngram-viewer-with-improved-search-tools/


Google Ngram Viewerというのは、大量の本(コーパス)を検索して年ごとにヒット数を調べられるサービスです。特定の英語表現の流行り廃りがグラフで見られます。英作文をするとき、「和英辞書に書いてあるけど、こんな英語は今使われているのかな…」といった場面でも活用できます。

追加されたのは、ワイルドカード検索、活用形をまとめて検索、大文字/小文字を区別しない検索、品詞タグを指定した検索、演算子を使った検索のようです。詳しくはこちらの説明:

Advanced Usage
https://books.google.com/ngrams/info#advanced


ワイルドカードや品詞タグの利用例です。

例えば「Japanese」という単語の後にどのような「名詞」が続くのか、時系列で1920〜2000年までを検索してみます。
ここで使っている式は「Japanese *_NOUN」です。アスタリスク(*)はワイルドカード、「_NOUN」はそのワイルドカードの品詞が「名詞」であるという指定です。ワイルドカードに名詞という指定をしない場合、「Japanese and」や「Japanese in」といったものまでヒットしてしまいます。品詞タグの種類は、上記「Advanced Usage」のリンク先に説明があります。


(Ngram Viewerのサイトでグラフを見る場合はこちらのリンクから)

グラフを見ると、例えば「Japanese troops」や「Japanese forces」といった軍に関連した語は1930年頃から1940年代半ばに増えています。逆に「Japanese economy」は1940年代半ばから徐々に増え始め、1990年頃にピークになっています。こんな具合に「Japanese 何とか」に対する関心を時系列に探せるわけです。


ちなみに品詞を指定してコーパス検索したい場合、ウェブ上であればCOCAなども使えます。こちらは時系列グラフは表示できません。

22 8月

Androidアプリで使われている英単語の特徴

Androidに標準で入っているアプリケーションのユーザーインターフェイス(UI)で使われている英単語の特徴を調べてみました。

ここでアプリケーションとは、時計や音楽プレイヤーなど全41種類です。例えば「設定」も実はアプリケーションで、こんな英単語が使われています。
screen


今回は特に何らかのアクション(行為、動作)を表す英単語を選んでみました。品詞で言うと動詞が主です。UIは人間とコンピュータとのやり取り(命令など)を仲介し、その際にアクションを表す単語は重要だからです。

まず、単純に登場頻度が高い上位30です。アルファベット順に並んでおり、右側の数字は(株)アルクが出している「標準語彙水準SVL12000」です。数字が大きいほど難易度が高くなります。
freq30

レベルが5以上またはレベル記載がない単語のセルに色を付けています。当然と言えば当然ですが、よく登場する単語は難易度が低いものがほとんどです。
deleteやdisableといった単語は、実は比較的難易度が高いようです。deleteはキーボードにあるので普段から目にしていますが…。syncはsynchronizeの省略形で「同期する」という意味です。Androidアプリではよく使われる英単語のようです。


さて、次は単純に登場頻度で見るのではなく、一般的な英語と比較し、目立って多く登場するアクション関連の英単語を30個拾ってみます。ここでは American National Corpus というコーパスと比べます。
比較にはカイ二乗統計量というものを使うのですが、簡単に言うと、「本来この単語はこの程度登場することが期待されているが、Androidアプリでは期待よりも多く登場する」ことを数字で表せます。この数字が大きい単語はAndroidアプリで特徴的な英単語と言えます。
distin30

こちらもSVLでレベル5以上、またはレベル記載なしの単語のセルに色を付けてあります。やはり、いかにもアプリケーションに使われそうな単語が多くあります。一般的な英語ではあまり使われないため、レベルが高いものも多くなっています。


英語学習者や英語アプリ利用者にとっては、これらの表は次のように活用できると思います。まず、「単純に頻度の高い英単語」を知っているかどうかを確認します。これらの単語は英語アプリを使いこなすのに必須です。頻度の高い英単語を理解していたら、次に「アプリに特徴的な英単語」を確認します。これによって、一般的な英語学習では出会う可能性が低い英単語も習得できます。

今回はAndroidアプリのみを調査対象としているため、必ずしもあらゆる英語版アプリに該当するとは限らない点にご注意ください。

以上です。
11 7月

IT関連英単語のスペルの変遷

大学院の統計の授業でレポートを出す必要があり、IT関連英単語のスペルが10年間で変化しているか否かを調べてみました。なかなか興味深い発見があったので、一部を紹介します。

方法としては、まずCNNニュースのアーカイブから2001年分と2011年分のIT関連ニュース(「Tech」カテゴリ以下)をサンプル取得してコーパスを作成しました。コーパスのサイズ(延べ語数)は次の通りです。
 2001年: 63,657語
 2011年: 86,528語
これに対して分析を加えました。


◆「email」か「e-mail」か

emailにハイフンを付けるかどうかという議論は英語圏でもあります。今回はこの10年間で変化があったかどうかを確かめたいと思います。
2001年と2011年のコーパスではサイズが違うので、共に100万語あたりに換算して生起頻度をグラフにするとこうなります。
email_

頻度としては、e-mail(ハイフンあり)の方が2001年でも2011年でも変わらず多いようです。
2011年の方がe-mailの割合が上がっているように見えますが、統計的な有意差はありませんでした(カイ二乗検定のp値は0.576)。要するに、今もハイフンあり・なしは意見が割れていて10年間で決着が付いていない、ということです。前述の通り頻度自体はハイフンありの方が多いので、どちらにするか迷ったらハイフンありを選択してもよいでしょう。


◆「website」か「web site」か

websiteと1語で書くか、webとsiteで2語で書くか、という違いです。100万語あたり頻度のグラフは以下の通りです。
website_

非常に面白いことに、2001年時点では「web site」と2語で書くケースがほとんどだったのですが、2011年では完全に逆転しています。これはもう10年間で「website」という1語表記が定着したと言えるでしょう(ちなみにp<.001)。


◆「internet」か「Internet」か

いわゆる「インターネット」はもともと固有名詞なので最初の文字を大文字で書くべき(Internet)だという意見と、すでに一般名詞化しているので小文字でよい(internet)という意見があり、議論になっています。この変化を探ってみます。
internet_

100万語あたり頻度では、2001年には圧倒的に大文字が多かったのですが、2011年ではむしろ小文字が多くなっています。ちなみに文頭なので大文字であるという例は除外してあります。
10年が経過し、徐々に一般名詞と考えられるようになってきたということでしょうか(p<.001)。

以上です。

<追記>
2012/7/13: グラフに一部表記ミスがあったので修正してあります。

26 5月

英文の難易度を測る(2)

前回に引き続き、「英文の難易度を測る」の第2回です。

Word Level Checker
http://www.someya-net.com/wlc/index_J.html

染谷泰正氏(現在、関西大学教授)が提供しており、第1回のThe Oxford Text Checkerと同様に各単語の難易度を判定しますが、機能はより豊富です。

使う場合はページを開き、まず解析対象テキストの 1.タイトルと 2.本文を入力します。
3.〜5.まで以下のようなオプションがあります。
WordLevelChecker1

まず3.ですが、これはどの単語リスト(辞書)と比較するかの選択肢です。各リストの詳しい内容は「詳細はここをクリック」から確認していただきたいのですが、簡単に説明するとこうです。
 ・JACET8000: 大学英語教育学会基本語改訂委員会が作成のリスト。8000語で、レベルは8段階。
 ・SVL12000: 株式会社アルクが開発したリスト。12000語で、レベルは12段階。「英辞郎」には単語に「レベル」が付けられているが、それと同じもの。
 ・WLC: 染谷氏作成のリスト。「ビジネス英語の分析用に特化した約35,000語」。
最初はどれを選んで試してもよいでしょう。

4.では大文字と小文字の区別です。通常は「区別しない」でよいでしょう。

5.の「トークンモード」のトークンとは、延べ語数のことです。例えば「That is the phone that I bought yesterday at the store.」という文は11語なので、トークンで「11」になります。一方、「タイプモード」のタイプとは、異なり語数のことです。上記の例文では、thatが2回、theが2回出てくるので、これを重複してカウントしません。そのためタイプでは「9」になります。


それでは、前回と同じ例文を使って解析してみます。オプションは「SLV12000」、「区別しない」、「タイプモード」としてみました。
実行すると、表とともに次のようなグラフも表示されます。どのレベルの単語がどのくらい使われているのか、視覚的に判断できます。
WordLevelChecker2

表とグラフ以外にも、統計情報や読みやすさ(リーダビリティ)の指標も表示されます。またページの末尾に、単語リストを表示させるオプションがあります。
WordLevelChecker3

これを使うと、難易度レベル順(in order of difficulty level)や出現頻度順(frequency order)などで、単語を一覧表示できます。


本チェッカーの実際の使い方としては、例えばまず難易度の高い単語がどの程度あるのかグラフで確認しておきます。その後、オプションで難易度レベル順に単語リストを表示し、難しい語をあらかじめ調べておく、といった方法が考えられるでしょう。

以上です。
16 5月

英文の難易度を測る(1)

リーディングの勉強をする場合など、英文の難易度をあらかじめ把握しておきたいときがあります。簡単すぎても難しすぎても、勉強にならないからです。

英文の難易度を測定できるサイトはいくつかあります。英文を入力し、そこで使われている「各単語の難易度」で計算する方法が一般的です。

◆ The Oxford Text Checker
http://oaadonline.oxfordlearnersdictionaries.com/oxford3000/oxford_3000_profiler.html

Oxford Advanced American Dictionary の難易度に基づいて測定できるサイトです。ページを開くと、以下のようなフォームが表示されます。
oxford1

どの単語リストを使うか、ボタンが3つ表示されています。
 ・Oxford 3000: 同辞書が重要と考える3000語
 ・Oxford 2,000 keywords: その3000語のうち、上位2000語
 ・Academic Word List: 英語圏の大学で遭遇するであろう単語の一覧
通常は「Oxford 3000」を選択すればよいのではないかと思います。

説明によると、
 ・Low intermediate(中級の下)レベルのテキストで、Oxford 3000のほぼ100%
 ・High intermediate(中級の上)レベルのテキストで、Oxford 3000の90〜95%
 ・Advanced(上級)レベルのテキストで、Oxford 3000の75〜90%
が含まれるようです。

例えば、適当なテキストを「Enter the text to check: 」テキストエリアに貼り付けてチェックを実行してみます(その下のテキストエリアは、除外する単語)。次のような結果画面が表示されます。
oxford2


赤下線部分に「89%」とあります。つまり、テキスト中の単語の89%はOxford 3000に含まれているということです。ですから難易度は、上級にぎりぎり入る程度と判断できるわけです。

画像の真ん中あたりに「Words not on the list」という部分があります。ここにはOxford 3000リストになかった単語が表示されています。比較的難しめの単語であると推測できるため、読む前にこのリストを見て知らない単語をチェックしておくと、スムーズにリーディングができるでしょう。


次回は別の難易度測定サイトを紹介します。
★6/22発売の翻訳書★
血と汗とピクセル 『血と汗とピクセル』
筆者について
西野 竜太郎
(Ryutaro Nishino)

翻訳者。合同会社グローバリゼーションデザイン研究所・代表社員。日本翻訳連盟・理事。
プロフィールや連絡先などについてはこちらをご覧ください。
Twitterアカウント
RSS フィード
著書
アプリ翻訳実践入門
『アプリ翻訳実践入門』


ソフトウェアグローバリゼーション入門
インプレス刊
『ソフトウェアグローバリゼーション入門』

達人出版会刊
『ソフトウェア・グローバリゼーション入門』


英語語源が魔術に変わる世界では
『英語語源が魔術に変わる世界では』


現場で困らない! ITエンジニアのための英語リーディング
『IT英語リーディング』


アプリケーションをつくる英語
紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
第4回ブクログ大賞受賞】