3章 おまけ2 日本語blogの階層的クラスタリング修正、できたクラスタを見てみる

return list.uniqだった所を修正
http://www.bitbucket.org/shokai/collective-intelligence-study/src/tip/03/generatefeedvector-jp.rb

  def getWordsByKind(node, kind)
    list = Array.new
    while node do
      f = node.feature.split(/,/) 
      if /#{kind}/ =~ f[0]
        list.push(node.surface)
      end
      node = node.next
    end
    return list
  end

http://www.bitbucket.org/shokai/collective-intelligence-study/src/tip/03/myblogdatajp.txt

myblogclustjp2


せっかくなので、できたクラスタを拡大して見てみる。
もともとfeedlistjp.txtが電子工作かプログラミング(LL系)が多いので、そんなに差が出ないだろうけど。


このあたりは技術系クラスタ? コードがぺたっと貼ってあるblogが多い気がする
日本語blog 一部拡大



この辺も技術系のトピックを扱ってるけど、コードより文字多めなblogが多い。
日本語blog 一部拡大


これは・・・はてなダイアリーを使ってるのが共通点のクラスタかな
日本語blog 一部拡大


その他っぽい。割と日常生活的な事が書かれている。
日本語blog 一部拡大



そうでもないのも混じってるけど、イベントとか家電watchとか。古川先生のblogが家電watchと同クラスタというのはわかる気がする。
日本語blog 一部拡大


よくわからないが、少し入っていた英語blogが固まった部分がある。
日本語blog 一部拡大