2008-10-27から1日間の記事一覧

3章 その3 feedlist.txtから単語出現表を作る

http://kiwitobes.com/clusters/feedlist.txt のfeedリストを巡回して、blogから全単語を取り出し、 http://kiwitobes.com/clusters/blogdata.txt と同じフォーマットで単語-出現数リストを作る。 pythonでは大丈夫みたいだけどfeedlist行末の改行がrubyのop…

3章 その2

p33より feedから記事本文を読んで単語の出現回数をチェックする。 htmlから本文を取り出すのに、hpricotを使ってみた。 gem install hpricot まずは、1つのfeedから単語と出現回数を数える getwordcounts(url) を作る。 http://www.bitbucket.org/shokai/co…

3章 その1 simple-rssでRSS/Atomフィードを読む

3章はクラスタリング。 35ページまでかけて複数の英文blogのRSSフィードから単語を切り出し、 http://kiwitobes.com/clusters/blogdata.txt のような単語と出現回数のリストを作っている。このblogdata.txtを使ってしまっても良いのだけど、せっかくだからru…