HTML解析のライブラリHpricot

こんな感じで使える

require 'hpricot'
require 'open-uri'

url = 'http://yahoo.co.jp/'

# HTML解析
doc = Hpricot( open(url.chomp).read )

# ページタイトル抽出
title = (doc/:html/:head/:title).text.tosjis
puts title

#imgタグの中で.jpgの者だけ抽出
(doc/:img).each do |img|
 img_address = "#{img[:src]}".tosjis
 if (/.*jpg/ =~ img_address) != nil then
  p img_address
 end
end

ネタ元