茶筌で分析 - 滴了庵日録

WEBサイト再編の準備として、日記のテキストデータを分析してみた。
使ったのは KH Coder というフリーソフト。形態素解析に茶筌を使ってるようです。
http://www.vector.co.jp/soft/win95/business/se373750.html

● 頻出する名詞　(固有名詞、サ変名詞、形式名詞など除く)



言葉(254), 時代(228), 世界(206), 歴史(204), 日本語(181),

ロボット(162), 自分(155), 英語(153), 言語(143), 文字(135)

如実に興味の対象を反映してますね(笑)
もっとも、タグ名も検索対象になってるからということもあるんですが。

● 頻出する地名



日本(220), 中国(150), 韓国(82), 奈良(63), ロシア(61)

これも如実。ロシアはソ連、ソビエトと合わせると130回で日本、中国に次ぐ3位。
アメリカは34回。米国、米帝を合わせると61回。

● 頻出する人名 (プライベートな人名は除く)



ブッダ/釈尊/釈迦(64), コナン(49), シャア(36), ハマーン(36),

キリスト(35), 道元(30), 金正日(18), 胡錦涛(17), (川本)真琴(16)

ええっ！？　シャアとハマーン…
いや、これはたぶん精度が悪いだけ…じゃないかなぁ？

● 頻出する動詞 (サ変動詞、補助動詞など除く)



思う(663), 使う(336), 言う(264), 書く(245), 見る(226), 分かる(161), 作る(145),

読む(138), 出る(134), 知る(132), 行く(129), 持つ(121), 考える(117)

に次いで、萌える(114) が14位にランクイン。
萌えるは基本語彙か…