3章 おまけ2 日本語blogの階層的クラスタリング修正、できたクラスタを見てみる
return list.uniqだった所を修正
http://www.bitbucket.org/shokai/collective-intelligence-study/src/tip/03/generatefeedvector-jp.rb
def getWordsByKind(node, kind) list = Array.new while node do f = node.feature.split(/,/) if /#{kind}/ =~ f[0] list.push(node.surface) end node = node.next end return list end
http://www.bitbucket.org/shokai/collective-intelligence-study/src/tip/03/myblogdatajp.txt
せっかくなので、できたクラスタを拡大して見てみる。
もともとfeedlistjp.txtが電子工作かプログラミング(LL系)が多いので、そんなに差が出ないだろうけど。
このあたりは技術系クラスタ? コードがぺたっと貼ってあるblogが多い気がする
この辺も技術系のトピックを扱ってるけど、コードより文字多めなblogが多い。
これは・・・はてなダイアリーを使ってるのが共通点のクラスタかな
そうでもないのも混じってるけど、イベントとか家電watchとか。古川先生のblogが家電watchと同クラスタというのはわかる気がする。