12/20 の CNET の記事によると、Google が「Books Ngram Viewer」というサービスを始めたようです。
リンクはこちらから:

Books Ngram Viewer
Google のブログ記事(英語)

簡単に言うと、これは「ある言葉が本の中でどの程度使われているか」を時系列的に表示できるものです。
検索対象となるのは Google Books でデジタル化された 1,500 万冊のうちの 520 万冊で、合計 5,000 億ワードというのでかなりの規模です。対象言語は英語、フランス語、ドイツ語、ロシア語、スペイン語、中国語(簡体字)のようです。



例えばリンク先のブログ記事では、次のような例を挙げています。

fax, phone, email
→ phone は相変わらず多いが、2002 年頃に email が fax を逆転している。

tofu, hot dog
→ 1985 年に tofu が hot dog を逆転している。

101220


これにより、言葉と文化の時系列的な変遷が簡単に調べられるようになるでしょう。人文系の研究する人にとっては非常に便利なツールになります。



ただ残念なのは、日本語が入っていない点でしょうか。
「日本語は英語と違って分かち書きしないから技術的に難しいのでは?」という疑問があるかもしれませんが、技術的には問題ないと思います。
「N-Gram」というのは隣接する文字を機械的に拾っていくだけで、意味を解釈するわけではありません。そこが「形態素解析」を使用する場合とは異なります。詳しくはこちらを参照してください。

要するに、日本語は技術的にできないわけではありません。何か別の理由があるのでしょう。
(こう言っては失礼ですが、簡体字中国語ですら入っているのに……)
早急な日本語対応が望まれます。