茶筌で分析

WEBサイト再編の準備として、日記のテキストデータを分析してみた。
使ったのは KH Coder というフリーソフト形態素解析に茶筌を使ってるようです。
http://www.vector.co.jp/soft/win95/business/se373750.html


● 頻出する名詞 (固有名詞、サ変名詞、形式名詞など除く)


言葉(254), 時代(228), 世界(206), 歴史(204), 日本語(181),
ロボット(162), 自分(155), 英語(153), 言語(143), 文字(135)
如実に興味の対象を反映してますね(笑)
もっとも、タグ名も検索対象になってるからということもあるんですが。


● 頻出する地名

日本(220), 中国(150), 韓国(82), 奈良(63), ロシア(61)
これも如実。ロシアはソ連ソビエトと合わせると130回で日本、中国に次ぐ3位。
アメリカは34回。米国、米帝を合わせると61回。


● 頻出する人名 (プライベートな人名は除く)

ブッダ/釈尊/釈迦(64), コナン(49), シャア(36), ハマーン(36),
キリスト(35), 道元(30), 金正日(18), 胡錦涛(17), (川本)真琴(16)
ええっ!? シャアとハマーン
いや、これはたぶん精度が悪いだけ…じゃないかなぁ?


● 頻出する動詞 (サ変動詞、補助動詞など除く)

思う(663), 使う(336), 言う(264), 書く(245), 見る(226), 分かる(161), 作る(145),
読む(138), 出る(134), 知る(132), 行く(129), 持つ(121), 考える(117)
に次いで、萌える(114) が14位にランクイン。
萌えるは基本語彙か…