wordpressのエクスポートデータから本文とタイトル抜き出し
#!/usr/bin/env ruby require 'rubygems' require 'rexml/document' require 'hpricot' filename = ARGV.shift exit(1) if filename == nil doc = REXML::Document.new(open(filename).read) REXML::XPath.each(doc, '//item'){ |item| title = REXML::XPath.first(item,'title').text content_html = REXML::XPath.first(item,'content:encoded').text content = Hpricot(content_html).inner_text # HTML削除 puts title puts content }
htmlは削除する