HTML解析のライブラリHpricot

こんな感じで使える

require 'hpricot'
require 'open-uri'

url = 'http://yahoo.co.jp/'

# HTML解析
doc = Hpricot( open(url.chomp).read )

# ページタイトル抽出
title = (doc/:html/:head/:title).text.tosjis
puts title

#imgタグの中で.jpgの者だけ抽出
(doc/:img).each do |img|
　img_address = "#{img[:src]}".tosjis
　if (/.*jpg/ =~ img_address) != nil then
　　p img_address
　end
end

ネタ元

RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize
- WWW::Mechanizeでのフォーム入力に関する解説もあり
- はてなダイアリーの自動投稿っぽいサンプルある
SHOUTcastとYouTubeのサイトを解析
Ruby入門正規表現