【言語の個性】文字の使用頻度を調べるには?

2022/11/07

学習

t f B! P L

ハロー。Yumaです。

皆様、今日も楽しんで語学してますか?

外国語を学んでいる時、「どの文字が最も多く使われているんだろう?」と思ったことはありませんか?

逆もしかりで、「最も使用頻度が少ない文字はどれだろうか?」とも。

私は常々思っていました。

英語であれば、アルファベット26文字の中で後半の特に"x"や"z"などは頻度が少ないだろうなと推測されますが、実際のところどうなのかが分かりませんでした。

要するに「どう検索すればよいか?」が分かっていないかったのですが、今回その解決法が分かったので備忘も含め当記事に残しておきます。


【答え】文字の使用頻度"Letter Frequency"の検索でOK

まず解決法を示しますと、Google等サーチエンジンに「文字の使用頻度」や"Letter Frequency"と検索すればOKです。

これは主観ですが、英語"Letter Frequency"で調べた方がいろいろな情報が得られるような気がします。

特定の言語について調べたいということであれば、以下のように検索できます。

例 "Letter Frequency in English"英語における文字の使用頻度」など。

また、以下に私が実際に検索した例から興味深いと感じたサイトを紹介したいと思います。

1.Letter Frequency – simia.net

サイトタイトルが文字通り「文字の使用頻度」を意味する"Letter Frequency"というページです(simia.net/letters/)。

特徴

・各言語版のWikipediaを元に使用頻度の高い順に一覧表示。

・文字サイズ(大→小)=使用頻度(高→低)で見やすい。

Wikipediaベースのため日本語やアラビア語なども確認可。

ざっと見通すと、アルファベットを用いる諸言語では母音、とりわけ"e"の使用が多いなという感じです。

1点だけ注意点としてはWikipediaがベースということで、母語以外の文字や数字などの記号もカウント対象になっているという点です。

(数字や記号はいくつか排除されているようですが。ただ中国語の使用頻度は一番が「、」(句読点)だったりします)

2.English Letter Frequencies

米国マサチューセッツ州にあるウェルズリー大学の作成されたページです(cs.wellesley.edu/~fturbak/codman/letterfreq.html)。

ソフトウェアの使用許諾書など3つの文書をソースとし、そこから抽出された約2,700語から英語における文字の使用頻度が示されています。

他にも以下の情報が得られます。

・頻度のパーセント表示。

・単語の先頭に最も現れる文字トップ10

・単語の最後に最も現れる文字トップ10

・最も一般的な2連続または3連続のつづり字。

特にこうした情報は英語におけるつづりの個性を知る上で役立ちそうですね。

3.Buchstabenhäufigkeit berechnen

例えば特定の文章に関して、文字の使用頻度を調べてみたいと思った場合はこのサイトで確認できます(gc.de/gc/buchstabenhaeufigkeit/)。

タイトルはドイツ語ですが、日本語で「文字の頻度計算」という意味です。

画面を開くとテキストボックスが2つあり、上段は"Text"、下段は"Buchstabenhäufigkeit"と表示されています。

使用法は簡単で以下の通りです。

・特定の文章を上段"Text"ボックス内に入力orペースト。

・"Encode▼"というボタンを押下する。

・下段"Buchstaben~"のボックス内に、頻度が結果表示される。

結果表示は、各文字毎の使用回数です。

結果の前半部分がアルファベットおよび数字順の表示、後半部分に使用回数の高い順で表示されます。

注意点は、計算の対象がラテン文字"AZ"およびアラビア数字"09"に限られるという点です。

他の文字(キリル文字など)や記号のついた文字(ウムラウトなど)は計算対象外となります。

4.Wikipedia "Letter Frequency"

最後は、やっぱりというか見ておいて損は無いということで英語版Wikipediaにおける"Letter Frequency"のページも紹介します

en.wikipedia.org/wiki/Letter_frequency)。

ドイツ語版やスペイン語版などでも同様のページは用意されているようですが、日本語版にはありません。

そこで英語版を見るのが分かりやすいと思います。

とりわけヨーロッパの言語に関して確認したいのであれば、ページ内の"Relative frequencies of letters in other languages"の項目を見れば一発です。

・ラテン文字を用いる15言語を網羅。

・記号のついた文字も対象に含む。

各言語の引用元も明記されているので、データソースの確認も一応は可能です。


最後に

いかがでしたでしょうか。今回は文字の使用頻度について調べることができるサイトを紹介しました。

複数の言語を並べて比較すると、ある言語では使用頻度の低い文字が別の言語では活躍していることが分かって面白いです。

人の個性のようなもので、文字の使用頻度という観点から各言語の個性「らしさ」も見えてくるかもしれませんね。

ぜひ皆様もいろいろと調べて楽しんでもらえたらと思います。

Translate

このブログを検索

プロフィール

Yuma
様々なヨーロッパの言語を独学し、日々の学習で得た発見や個人的に興味深い語学ネタを発信しています。外国語学習に疲れたとき、息抜きに読んでもらえれば幸いです。

お問合せフォーム

名前

メール *

メッセージ *

QooQ