rnishino

IT翻訳者Blog

翻訳、英語、ローカリゼーション、インターナショナリゼーションなどについて書いています。

英語

22 8月

Androidアプリで使われている英単語の特徴

Androidに標準で入っているアプリケーションのユーザーインターフェイス(UI)で使われている英単語の特徴を調べてみました。

ここでアプリケーションとは、時計や音楽プレイヤーなど全41種類です。例えば「設定」も実はアプリケーションで、こんな英単語が使われています。
screen


今回は特に何らかのアクション(行為、動作)を表す英単語を選んでみました。品詞で言うと動詞が主です。UIは人間とコンピュータとのやり取り(命令など)を仲介し、その際にアクションを表す単語は重要だからです。

まず、単純に登場頻度が高い上位30です。アルファベット順に並んでおり、右側の数字は(株)アルクが出している「標準語彙水準SVL12000」です。数字が大きいほど難易度が高くなります。
freq30

レベルが5以上またはレベル記載がない単語のセルに色を付けています。当然と言えば当然ですが、よく登場する単語は難易度が低いものがほとんどです。
deleteやdisableといった単語は、実は比較的難易度が高いようです。deleteはキーボードにあるので普段から目にしていますが…。syncはsynchronizeの省略形で「同期する」という意味です。Androidアプリではよく使われる英単語のようです。


さて、次は単純に登場頻度で見るのではなく、一般的な英語と比較し、目立って多く登場するアクション関連の英単語を30個拾ってみます。ここでは American National Corpus というコーパスと比べます。
比較にはカイ二乗統計量というものを使うのですが、簡単に言うと、「本来この単語はこの程度登場することが期待されているが、Androidアプリでは期待よりも多く登場する」ことを数字で表せます。この数字が大きい単語はAndroidアプリで特徴的な英単語と言えます。
distin30

こちらもSVLでレベル5以上、またはレベル記載なしの単語のセルに色を付けてあります。やはり、いかにもアプリケーションに使われそうな単語が多くあります。一般的な英語ではあまり使われないため、レベルが高いものも多くなっています。


英語学習者や英語アプリ利用者にとっては、これらの表は次のように活用できると思います。まず、「単純に頻度の高い英単語」を知っているかどうかを確認します。これらの単語は英語アプリを使いこなすのに必須です。頻度の高い英単語を理解していたら、次に「アプリに特徴的な英単語」を確認します。これによって、一般的な英語学習では出会う可能性が低い英単語も習得できます。

今回はAndroidアプリのみを調査対象としているため、必ずしもあらゆる英語版アプリに該当するとは限らない点にご注意ください。

以上です。
11 7月

IT関連英単語のスペルの変遷

大学院の統計の授業でレポートを出す必要があり、IT関連英単語のスペルが10年間で変化しているか否かを調べてみました。なかなか興味深い発見があったので、一部を紹介します。

方法としては、まずCNNニュースのアーカイブから2001年分と2011年分のIT関連ニュース(「Tech」カテゴリ以下)をサンプル取得してコーパスを作成しました。コーパスのサイズ(延べ語数)は次の通りです。
 2001年: 63,657語
 2011年: 86,528語
これに対して分析を加えました。


◆「email」か「e-mail」か

emailにハイフンを付けるかどうかという議論は英語圏でもあります。今回はこの10年間で変化があったかどうかを確かめたいと思います。
2001年と2011年のコーパスではサイズが違うので、共に100万語あたりに換算して生起頻度をグラフにするとこうなります。
email_

頻度としては、e-mail(ハイフンあり)の方が2001年でも2011年でも変わらず多いようです。
2011年の方がe-mailの割合が上がっているように見えますが、統計的な有意差はありませんでした(カイ二乗検定のp値は0.576)。要するに、今もハイフンあり・なしは意見が割れていて10年間で決着が付いていない、ということです。前述の通り頻度自体はハイフンありの方が多いので、どちらにするか迷ったらハイフンありを選択してもよいでしょう。


◆「website」か「web site」か

websiteと1語で書くか、webとsiteで2語で書くか、という違いです。100万語あたり頻度のグラフは以下の通りです。
website_

非常に面白いことに、2001年時点では「web site」と2語で書くケースがほとんどだったのですが、2011年では完全に逆転しています。これはもう10年間で「website」という1語表記が定着したと言えるでしょう(ちなみにp<.001)。


◆「internet」か「Internet」か

いわゆる「インターネット」はもともと固有名詞なので最初の文字を大文字で書くべき(Internet)だという意見と、すでに一般名詞化しているので小文字でよい(internet)という意見があり、議論になっています。この変化を探ってみます。
internet_

100万語あたり頻度では、2001年には圧倒的に大文字が多かったのですが、2011年ではむしろ小文字が多くなっています。ちなみに文頭なので大文字であるという例は除外してあります。
10年が経過し、徐々に一般名詞と考えられるようになってきたということでしょうか(p<.001)。

以上です。

<追記>
2012/7/13: グラフに一部表記ミスがあったので修正してあります。

26 5月

英文の難易度を測る(2)

前回に引き続き、「英文の難易度を測る」の第2回です。

Word Level Checker
http://www.someya-net.com/wlc/index_J.html

染谷泰正氏(現在、関西大学教授)が提供しており、第1回のThe Oxford Text Checkerと同様に各単語の難易度を判定しますが、機能はより豊富です。

使う場合はページを開き、まず解析対象テキストの 1.タイトルと 2.本文を入力します。
3.〜5.まで以下のようなオプションがあります。
WordLevelChecker1

まず3.ですが、これはどの単語リスト(辞書)と比較するかの選択肢です。各リストの詳しい内容は「詳細はここをクリック」から確認していただきたいのですが、簡単に説明するとこうです。
 ・JACET8000: 大学英語教育学会基本語改訂委員会が作成のリスト。8000語で、レベルは8段階。
 ・SVL12000: 株式会社アルクが開発したリスト。12000語で、レベルは12段階。「英辞郎」には単語に「レベル」が付けられているが、それと同じもの。
 ・WLC: 染谷氏作成のリスト。「ビジネス英語の分析用に特化した約35,000語」。
最初はどれを選んで試してもよいでしょう。

4.では大文字と小文字の区別です。通常は「区別しない」でよいでしょう。

5.の「トークンモード」のトークンとは、延べ語数のことです。例えば「That is the phone that I bought yesterday at the store.」という文は11語なので、トークンで「11」になります。一方、「タイプモード」のタイプとは、異なり語数のことです。上記の例文では、thatが2回、theが2回出てくるので、これを重複してカウントしません。そのためタイプでは「9」になります。


それでは、前回と同じ例文を使って解析してみます。オプションは「SLV12000」、「区別しない」、「タイプモード」としてみました。
実行すると、表とともに次のようなグラフも表示されます。どのレベルの単語がどのくらい使われているのか、視覚的に判断できます。
WordLevelChecker2

表とグラフ以外にも、統計情報や読みやすさ(リーダビリティ)の指標も表示されます。またページの末尾に、単語リストを表示させるオプションがあります。
WordLevelChecker3

これを使うと、難易度レベル順(in order of difficulty level)や出現頻度順(frequency order)などで、単語を一覧表示できます。


本チェッカーの実際の使い方としては、例えばまず難易度の高い単語がどの程度あるのかグラフで確認しておきます。その後、オプションで難易度レベル順に単語リストを表示し、難しい語をあらかじめ調べておく、といった方法が考えられるでしょう。

以上です。
16 5月

英文の難易度を測る(1)

リーディングの勉強をする場合など、英文の難易度をあらかじめ把握しておきたいときがあります。簡単すぎても難しすぎても、勉強にならないからです。

英文の難易度を測定できるサイトはいくつかあります。英文を入力し、そこで使われている「各単語の難易度」で計算する方法が一般的です。

◆ The Oxford Text Checker
http://oaadonline.oxfordlearnersdictionaries.com/oxford3000/oxford_3000_profiler.html

Oxford Advanced American Dictionary の難易度に基づいて測定できるサイトです。ページを開くと、以下のようなフォームが表示されます。
oxford1

どの単語リストを使うか、ボタンが3つ表示されています。
 ・Oxford 3000: 同辞書が重要と考える3000語
 ・Oxford 2,000 keywords: その3000語のうち、上位2000語
 ・Academic Word List: 英語圏の大学で遭遇するであろう単語の一覧
通常は「Oxford 3000」を選択すればよいのではないかと思います。

説明によると、
 ・Low intermediate(中級の下)レベルのテキストで、Oxford 3000のほぼ100%
 ・High intermediate(中級の上)レベルのテキストで、Oxford 3000の90〜95%
 ・Advanced(上級)レベルのテキストで、Oxford 3000の75〜90%
が含まれるようです。

例えば、適当なテキストを「Enter the text to check: 」テキストエリアに貼り付けてチェックを実行してみます(その下のテキストエリアは、除外する単語)。次のような結果画面が表示されます。
oxford2


赤下線部分に「89%」とあります。つまり、テキスト中の単語の89%はOxford 3000に含まれているということです。ですから難易度は、上級にぎりぎり入る程度と判断できるわけです。

画像の真ん中あたりに「Words not on the list」という部分があります。ここにはOxford 3000リストになかった単語が表示されています。比較的難しめの単語であると推測できるため、読む前にこのリストを見て知らない単語をチェックしておくと、スムーズにリーディングができるでしょう。


次回は別の難易度測定サイトを紹介します。
23 4月

スタンフォードの無料オンライン・コース「CS 101」講義開始

以前のブログ記事で紹介した、スタンフォード大学が無料で公開しているオンライン・コースの1つが4/23から始まりました。「CS 101」(コンピューター・サイエンス101)です。当初は2月開始予定だったので、随分と遅れていたようです。ちなみに今でも登録できます。

全コースはこちらのリンクから見られます(どちらも最終的なリンク先は同じ)。
 ・Class Central: http://www.class-central.com/
 ・Coursera: https://www.coursera.org/

以前はコンピューター関連など理工系の授業が多かったようですが、それ以外の分野も追加されるようです。人文科学系なら次のようなコースです。
 ・A History of the World since 1300
 ・Fantasy and Science Fiction: The Human Mind, Our Modern World
 ・Listening to World Music
歴史、文学、音楽とさまざまです。社会科学系では例えばこれらです。
 ・Game Theory
 ・Introduction to Finance


◆ 受講の様子

上記のとおり「CS 101」を始めたので、その様子を書いてみます。

登録してログインすると、左側のメニューに、
 ・Home (ホーム画面)
 ・Lectures (講義一覧)
 ・Exercises (課題一覧)
 ・Discussion Forums (掲示板)
 ・Course Howto (受講方法)
などの項目が表示されます。次の画面は、「Lectures」をクリックしたところです。
1_lectures


CS 101では、講義を受けて課題を提出するのが基本的な流れになるそうです。講義ビデオはこんな具合です。
2_lecture

左側が講義の資料で、右下に映っている人が講師です。中央下の「Toggle」ボタンをクリックすると、講義ビデオの再生を一時停止し、資料を読むこともできます。

講義の途中でビデオの再生が自動的に止まり、練習問題が出ることがあります。気を抜けません。
3_exercise


講義を見終わったら、「Exercise」メニューから課題を解いて提出します。

また、英語の聞き取りに自信がない場合、講師の話している内容をテキストとしてダウンロードできます。
4_subtitle-text


単に講義を録画して公開しているわけではなく、このオンライン・コース専用に作られているので、非常に使いやすくなっています。これが無料だとは信じられません。

また、「Discussion Forums」を覗いてみたところ、「Study Groups」という掲示板がありました。どうやら学生の自主勉強会ができているようです。地域別のグループが多く、中でもアジアからの受講者が目立つという印象です。
5_studygroup

無料かつインターネット経由であるため、世界各国から受講者が集まるのでしょう。

「留学したいけど、授業はどんな感じなんだろう…」と思っている人は、まずこういったオンライン・コースを受けてみるのもいいかもしれません。

以上です。
★6/22発売の翻訳書★
血と汗とピクセル 『血と汗とピクセル』
筆者について
西野 竜太郎
(Ryutaro Nishino)

翻訳者。合同会社グローバリゼーションデザイン研究所・代表社員。日本翻訳連盟・理事。
プロフィールや連絡先などについてはこちらをご覧ください。
Twitterアカウント
RSS フィード
著書
アプリ翻訳実践入門
『アプリ翻訳実践入門』


ソフトウェアグローバリゼーション入門
インプレス刊
『ソフトウェアグローバリゼーション入門』

達人出版会刊
『ソフトウェア・グローバリゼーション入門』


英語語源が魔術に変わる世界では
『英語語源が魔術に変わる世界では』


現場で困らない! ITエンジニアのための英語リーディング
『IT英語リーディング』


アプリケーションをつくる英語
紙版
『アプリケーションをつくる英語』

電子版
『アプリケーションをつくる英語』
第4回ブクログ大賞受賞】