|      1mrytsr      2014-10-04 19:09:44 +08:00 via Android Scrapy | 
|  |      2mhycy      2014-10-04 19:17:18 +08:00  1 手写.... Requests + re + threading + logging 各种爽~ PS.其实是觉得框架太不灵活了 | 
|  |      3paulw54jrn      2014-10-04 20:22:04 +08:00  1 不是很复杂就是楼上说的 requests + re + threading/greenlets 或者是楼上上说的 Scrapy.. | 
|  |      4ShiehShieh      2014-10-04 20:37:56 +08:00 有没有什么好点的材料能学习嘛? 0.0 | 
|  |      5binux      2014-10-04 20:42:33 +08:00  2 | 
|  |      7XadillaX      2014-10-04 21:40:50 +08:00 -。 - 为什么没多少人学 node 做爬虫呢? | 
|  |      8chemzqm      2014-10-04 22:44:35 +08:00  1 node异步回调太恶心,占用内存太高,低配机器跑不了几个进程 | 
|  |      9R4rvZ6agNVWr56V0      2014-10-04 23:13:37 +08:00  1 曾经用twisted自己写过一个,后来才知道有scrapy这个爬虫框架,推荐scrapy | 
|  |      10Codist      2014-10-04 23:35:52 +08:00  1 scrapy简单又方便,selector用起来也很舒服,不用写正则了 | 
|  |      11kenis      2014-10-05 02:54:57 +08:00  1 推荐用Scrapy,比较成熟的爬虫框架,资源也不少。 | 
|  |      12cha1      2014-10-05 06:12:50 +08:00  1 | 
|  |      13briefcopy      2014-10-05 09:38:11 +08:00  1 WebCollector: http://www.brieftools.info/document/webcollector/ | 
|  |      14imn1      2014-10-05 10:40:13 +08:00  1 我抓取的量很大,所以分离过程用wget抓取,py做parse,95%用正则,少量用 lxml+xpath 无论用什么,通读http协议+抓包工具是跑不掉的 | 
|  |      15ericls      2014-10-05 14:07:54 +08:00 via Android  1 requests pyquery | 
|  |      16helloworld00      2014-10-05 18:24:36 +08:00  1 |