こんな感じで使える
require 'hpricot'
require 'open-uri'
url = 'http://yahoo.co.jp/'
# HTML解析
doc = Hpricot( open(url.chomp).read )
# ページタイトル抽出
title = (doc/:html/:head/:title).text.tosjis
puts title
#imgタグの中で.jpgの者だけ抽出
(doc/:img).each do |img|
img_address = "#{img[:src]}".tosjis
if (/.*jpg/ =~ img_address) != nil then
p img_address
end
endネタ元
- RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize
- WWW::Mechanizeでのフォーム入力に関する解説もあり
- はてなダイアリーの自動投稿っぽいサンプルある
- SHOUTcastとYouTubeのサイトを解析
- Ruby入門 正規表現