WEBサイト再編の準備として、日記のテキストデータを分析してみた。
使ったのは KH Coder というフリーソフト。形態素解析に茶筌を使ってるようです。
http://www.vector.co.jp/soft/win95/business/se373750.html
● 頻出する名詞 (固有名詞、サ変名詞、形式名詞など除く)
如実に興味の対象を反映してますね(笑)
言葉(254), 時代(228), 世界(206), 歴史(204), 日本語(181),
ロボット(162), 自分(155), 英語(153), 言語(143), 文字(135)
もっとも、タグ名も検索対象になってるからということもあるんですが。
● 頻出する地名
これも如実。ロシアはソ連、ソビエトと合わせると130回で日本、中国に次ぐ3位。
日本(220), 中国(150), 韓国(82), 奈良(63), ロシア(61)
アメリカは34回。米国、米帝を合わせると61回。
● 頻出する人名 (プライベートな人名は除く)
ええっ!? シャアとハマーン…
ブッダ/釈尊/釈迦(64), コナン(49), シャア(36), ハマーン(36),
キリスト(35), 道元(30), 金正日(18), 胡錦涛(17), (川本)真琴(16)
いや、これはたぶん精度が悪いだけ…じゃないかなぁ?
● 頻出する動詞 (サ変動詞、補助動詞など除く)
に次いで、萌える(114) が14位にランクイン。
思う(663), 使う(336), 言う(264), 書く(245), 見る(226), 分かる(161), 作る(145),
読む(138), 出る(134), 知る(132), 行く(129), 持つ(121), 考える(117)
萌えるは基本語彙か…