mecabインストール
sudo apt-get install mecab-ipadic-utf8 mecab
Rubyバインディングはあってもあんまり意味ない気がするので、使わないでおこう
mecab-split-term.rb
#!/usr/bin/env ruby def mecab_parse(str) `echo '#{str}' | mecab`.split(/[\r\n]/).map{|i| i.split(/\t/).map{|j| j.split(/,/) }.flatten }.delete_if{|i| i.size != 10 } end ARGF.each do |line| line.strip! p mecab_parse line end
echo '若者が研究会でプログラム練習するといいつつ練習してる気配が無いのですが' | ruby -Ku mecab-split-terms.rb
[["若者", "名詞", "一般", "*", "*", "*", "*", "若者", "ワカモノ", "ワカモノ"], ["が", "助詞", "格助詞", "一般", "*", "*", "*", "が", "ガ", "ガ"], ["研究", "名詞", "サ変 接続", "*", "*", "*", "*", "研究", "ケンキュウ", "ケンキュー"], ["会", "名詞", "接尾", "一般", "*", "*", "*", "会", "カイ", "カイ"], ["で", "助詞", "格助詞", "一般", "*", "*", "*", "で", "デ", "デ"], ["プログラム", "名詞", "サ変接続", "*", "*", "*", "*", "プログラム", "プログラム", "プログラム"], ["練習", "名詞", "サ変接続", "*", "*", "*", "*", "練習", "レンシュウ", "レンシュー"], ["する", "動詞", "自立", "*", "*", "サ変・スル", "基本形", "する", "スル", "スル"], ["と", "助詞", "格助詞", "引用", "*", "*", "*", "と", "ト", "ト"], ["いい", "動詞", "自立", "*", "*", "五段・ワ行促音便", "連用形", "いう", "イイ", "イイ"], ["つつ", "助詞", "接続助詞", "*", "*", "*", "*", " つつ", "ツツ", "ツツ"], ["練習", "名詞", "サ変接続", "*", "*", "*", "*", "練習", "レンシュウ", "レンシュー"], ["し", "動詞", "自立", "*", "*", "サ変・スル", "連用形", " する", "シ", "シ"], ["てる", "動詞", "非自立", "*", "*", "一段", "基本形", "てる", "テル", "テル"], ["気配", "名詞", "一般", "*", "*", "*", "*", "気配", "ケハイ", "ケハ イ"], ["が", "助詞", "格助詞", "一般", "*", "*", "*", "が", "ガ", "ガ"], ["無い", "形容詞", "自立", "*", "*", "形容詞・アウオ段", "基本形", "無い", "ナイ", "ナイ"], ["の", "名詞", "非自立", "一般", "*", "*", "*", "の", "ノ", "ノ"], ["です", "助動詞", "*", "*", "*", "特殊・デス", "基本形", "です", "デス", "デス"], ["が", "助詞", "接続助 詞", "*", "*", "*", "*", "が", "ガ", "ガ"]]