月曜日, 3月 05, 2012

Spidering hacks―ウェブ情報ラクラク取得テクニック101選



www.oreilly.co.jp/BOOK/spiderhks/

★Spiderをする上での基本
LWP
LWP::Simple
LWP::UserAgent

★robots.txt
LWP::RobotUA

★プログレスバー
Term::ProgressBar

★HTMLの木構造解析
HTML::TreeBuilder

★タグをキーにHTMLを解析
HTML:TokeParser

★LWPを内部に使ってより高機能に
例えばcpanからauthorを指定して全tarballを落とす、など
WWW:Mechanize

他にも主にCPANを使ってSpiderする方法が書かれている
http://www.oreilly.co.jp/books/4873111870/