ahokai

ahokaiクローラ修正

atomから本文を取ってたんだけど、なぜかrssからじゃないとfeed-normalizerがエラーを出すようになったのでrssに切り替えた。 ついでに、せっかくだから引数を受ける部分も手を加えた。 こうしてARGVを加工すると # 保存するpageを引数で指定 pages = ARGV.m…

自分でクローラ書きたい人や、複数アカウントに投稿したい人向け設定

make3gram_fromtextfile.rbでテキストから読み込める。クローラを自作する人向け。~/dics/の下に *.txtでテキストファイルを置いたとすると ruby make3gram_fromtextfile.rb ~/dics/*.txtでまとめて全部n-gram作成。これで人のblogをコピペして再配信できる…

裏twitterタイムライン

id:pcod のtwitter検索が、検索語にワイルドカード対応してくれたので裏twitterタイムラインが見れるようになった http://pcod.no-ip.org/yats/search?query=user%3A*_bot%2Cahokai%2Cdnp+-user%3Atetsuwo_bot%2Cgundam_bot%2Cjoachim_bot%2Cdoushi_bot%2Cme…

bot管理 daemon化

http://d.hatena.ne.jp/shokai/20081224/1230151944 のクローラが、cronで回してたら処理が長すぎてどうもタイムアウト?するみたいなので、daemon化した。タイムアウトなんてあんのかな。数十分かかってたんだえkど webrickで楽々。 ahokai-bots.rb #!/usr…

bot管理

ディレクトリ下にahokaiを複数配置 /home/sho/bots% tree -L 1 . |-- dangkang_bot |-- narupeko_bot |-- penguinana_bot |-- post.rb |-- refollow-refav.rb |-- shingoy_bot |-- store-make3gram.rb `-- yusukebe_bot収集用 store-make3gram.rb #!/usr/bin…

bot ahokaiの作成

さっきできた。3時間ぐらいかかった。 http://twitter.com/ahokai に触発されて作ったいつかどこかでn-gramモデルを作って文章を連結させると自然になると読んだので、やってみた。DBに溜めたpostをmecabで分割する所で文字コード関係でつまづいていたが、色…