こんな感じで使える
require 'hpricot' require 'open-uri' url = 'http://yahoo.co.jp/' # HTML解析 doc = Hpricot( open(url.chomp).read ) # ページタイトル抽出 title = (doc/:html/:head/:title).text.tosjis puts title #imgタグの中で.jpgの者だけ抽出 (doc/:img).each do |img| img_address = "#{img[:src]}".tosjis if (/.*jpg/ =~ img_address) != nil then p img_address end end
ネタ元
- RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize
- WWW::Mechanizeでのフォーム入力に関する解説もあり
- はてなダイアリーの自動投稿っぽいサンプルある
- SHOUTcastとYouTubeのサイトを解析
- Ruby入門 正規表現