大学院の統計の授業でレポートを出す必要があり、IT関連英単語のスペルが10年間で変化しているか否かを調べてみました。なかなか興味深い発見があったので、一部を紹介します。

方法としては、まずCNNニュースのアーカイブから2001年分と2011年分のIT関連ニュース(「Tech」カテゴリ以下)をサンプル取得してコーパスを作成しました。コーパスのサイズ(延べ語数)は次の通りです。
 2001年: 63,657語
 2011年: 86,528語
これに対して分析を加えました。


◆「email」か「e-mail」か

emailにハイフンを付けるかどうかという議論は英語圏でもあります。今回はこの10年間で変化があったかどうかを確かめたいと思います。
2001年と2011年のコーパスではサイズが違うので、共に100万語あたりに換算して生起頻度をグラフにするとこうなります。
email_

頻度としては、e-mail(ハイフンあり)の方が2001年でも2011年でも変わらず多いようです。
2011年の方がe-mailの割合が上がっているように見えますが、統計的な有意差はありませんでした(カイ二乗検定のp値は0.576)。要するに、今もハイフンあり・なしは意見が割れていて10年間で決着が付いていない、ということです。前述の通り頻度自体はハイフンありの方が多いので、どちらにするか迷ったらハイフンありを選択してもよいでしょう。


◆「website」か「web site」か

websiteと1語で書くか、webとsiteで2語で書くか、という違いです。100万語あたり頻度のグラフは以下の通りです。
website_

非常に面白いことに、2001年時点では「web site」と2語で書くケースがほとんどだったのですが、2011年では完全に逆転しています。これはもう10年間で「website」という1語表記が定着したと言えるでしょう(ちなみにp<.001)。


◆「internet」か「Internet」か

いわゆる「インターネット」はもともと固有名詞なので最初の文字を大文字で書くべき(Internet)だという意見と、すでに一般名詞化しているので小文字でよい(internet)という意見があり、議論になっています。この変化を探ってみます。
internet_

100万語あたり頻度では、2001年には圧倒的に大文字が多かったのですが、2011年ではむしろ小文字が多くなっています。ちなみに文頭なので大文字であるという例は除外してあります。
10年が経過し、徐々に一般名詞と考えられるようになってきたということでしょうか(p<.001)。

以上です。

<追記>
2012/7/13: グラフに一部表記ミスがあったので修正してあります。