なんじゃくにっき

プログラミングの話題中心。

自然言語処理

文字の出現頻度を数える

前回、英文に出現する単語の出現頻度を数えてみましたが、 今回は前回よりもさらに細かい単位、文字単位で分割してみます。 前置きとして、シャノンの情報量 の定義では、 確率pで起こる事象の情報量I(p)は I(p) = -log2p bit で与えられます。 簡単のため、…

単語の出現頻度を数える

英文に出現する単語の頻度を数えてみます。 とりあえずは形態素解析とか難しいことは使わずに、アルファベット以外の文字を区切り文字として単語を切り出します。 題材はシェイクスピアのハムレット。 何故か自然言語処理でよく使われます。 約400年前の文章…