Rubyで日中漢字音比較表作成

久々にRubyスクリプトを書きました。つまらないものですが。
いまだにオブジェクト指向の考え方がうまくできません。なら素直にPerlで書けやっていう気もします。RubyCygwinのやつを使ってます。
お題は、日中漢字音比較。常用漢字の日本語音(音読み)と北京語音を、声母と韻母に分析して比較しようというものです。
まず常用漢字の日本語音は下記の辞書(テキストファイル)を利用
・JYOU-KAN http://www.vector.co.jp/soft/dl/data/writing/se016011.html
この辞書では読みはひらかな表記なので、ローマ字に変換するために下記のRuby用のライブラリを利用
Ruby/Romkan http://namazu.org/~satoru/ruby-romkan/
これらを使い、さらに音を声母と韻母に分析するスクリプトを作成
スクリプト1 http://licheng.sakura.ne.jp/temp/process1.rb
読みが複数あるものは漢音第一、呉音第二、唐音無視、慣例音無視の方針で整理。これはさすがに手作業でないと不可能。電子辞書片手に黙々と作業。整理したファイルから、下記スクリプトで漢字のみぬきだし。
スクリプト2 http://licheng.sakura.ne.jp/temp/process2.rb
この漢字リストからピンイン(北京語音のローマ字つづり)を得るために下記のフリーウェアを利用
・PinConv+ http://www.ctrans.org/entry.php/1120984246
声調を数字表記する形式でピンインを出力し、下記スクリプトで声母と韻母に分析。また機械的に統計処理しやすいようにピンインをちょっとだけ独自の表記法則に変更。
スクリプト3 http://licheng.sakura.ne.jp/temp/process3.rb
さてこうして出来上がったのが、常用漢字日中発音比較表
http://licheng.sakura.ne.jp/temp/kanji-jp-ch4.xls
次はこれをどう料理するかですね。たとえば中国語の特定の声母に着目して、日本語のどの声母に何%の割合で対応するかとか、いろいろ統計をとってみると面白いかもしれません。