www.oreilly.co.jp/BOOK/spiderhks/
★Spiderをする上での基本
LWP
LWP::Simple
LWP::UserAgent
★robots.txt
LWP::RobotUA
★プログレスバー
Term::ProgressBar
★HTMLの木構造解析
HTML::TreeBuilder
★タグをキーにHTMLを解析
HTML:TokeParser
★LWPを内部に使ってより高機能に
例えばcpanからauthorを指定して全tarballを落とす、など
WWW:Mechanize
他にも主にCPANを使ってSpiderする方法が書かれている
http://www.oreilly.co.jp/books/4873111870/