V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cabinw
V2EX  ›  Python

如何用Gevent更快速的异步爬取内容

  •  
  •   cabinw ·
    cabinw · 2012-09-14 00:03:56 +08:00 · 8895 次点击
    这是一个创建于 4240 天前的主题,其中的信息可能已经有所发展或是发生改变。
    其实也不一定要用gevent,不过用了gevent之后效果的确不错

    情况是这样,从IMDB id tt0000000 到 tt9999999遍历访问一遍豆瓣的电影信息,并保存电影信息。如果只是用线程,然后gevent.joinall(threads),效果好像不是很明显,有什么更好的办法么?

    初学gevent,还处于不会的状态
    35 条回复    1970-01-01 08:00:00 +08:00
    Livid
        1
    Livid  
    MOD
       2012-09-14 00:05:14 +08:00
    Celery or RQ is better for such scenario.
    cabinw
        2
    cabinw  
    OP
       2012-09-14 00:06:12 +08:00
    @Livid 3x~
    phuslu
        3
    phuslu  
       2012-09-14 00:08:49 +08:00
    gevent.pool.spawn + httplib2
    Brutal
        4
    Brutal  
       2012-09-14 00:25:11 +08:00
    queue 然后 q.get()
    reus
        5
    reus  
       2012-09-14 00:33:21 +08:00
    requests + multiprocessing.Pool
    cabinw
        6
    cabinw  
    OP
       2012-09-14 00:42:04 +08:00
    @phuslu @Brutal @reus 感谢给出的各种方案,我都去了解下
    btwo
        7
    btwo  
       2012-09-14 10:38:07 +08:00
    有测试结果了也请贴出来,一起学习下!
    muxi
        8
    muxi  
       2012-09-14 10:50:49 +08:00
    muxi
        9
    muxi  
       2012-09-14 10:51:50 +08:00
    muxi
        10
    muxi  
       2012-09-14 10:54:45 +08:00
    cabinw
        11
    cabinw  
    OP
       2012-09-14 11:04:10 +08:00
    @btwo
    cabinw
        12
    cabinw  
    OP
       2012-09-14 11:04:23 +08:00
    @muxi 如此详细,大赞!
    sinreal
        13
    sinreal  
       2012-09-14 12:48:26 +08:00
    额,豆瓣好像限制单个ip访问频率的。楼主可以考虑多个ip慢慢去抓。
    cabinw
        14
    cabinw  
    OP
       2012-09-14 12:50:55 +08:00
    @sinreal 我测试用单ip抓了12万数据貌似还没出现问题,不过这的确会是个问题啊
    14kscn
        15
    14kscn  
       2012-09-14 13:25:06 +08:00
    我比较好奇的是 v2ex 可以贴 code 了?
    eric_q
        16
    eric_q  
       2012-09-14 13:32:18 +08:00
    如果爬得过快消耗太多资源,可能会被手动封禁
    cabinw
        17
    cabinw  
    OP
       2012-09-14 13:45:12 +08:00
    @eric_q 诶,那真是大问题了
    clowwindy
        18
    clowwindy  
       2012-09-14 20:41:09 +08:00
    爬虫的瓶颈不在抓取,在被爬的网站上……一般要爬单个网站的大量数据,要么直接找对方要,要么动用大量 IP……

    抓取的性能不是问题,如果爬完全不同的网站,之前用 tornado 那个 async_http_client 写了一个爬虫,开 5 个进程一边爬一边往 HBase 里插,可以达到 2000 QPS。
    fanzeyi
        19
    fanzeyi  
       2012-09-14 20:45:57 +08:00
    如果楼主可以生成出爬的页面的链接到一个数组里,可以直接用 grequests<https://crate.io/packages/grequests/> 非常好用的异步 URL Fetching 库.

    后端是 Gevent ..可以写上 callback 参数 =v=
    chendahui007
        20
    chendahui007  
       2012-11-18 15:12:46 +08:00
    @cabinw 可以看看你写的爬豆瓣电影那个么?
    eric_q
        21
    eric_q  
       2012-11-18 15:38:51 +08:00
    cabinw
        22
    cabinw  
    OP
       2012-11-18 16:18:56 +08:00
    @chendahui007 我已经放弃爬了,会被封IP的
    cabinw
        23
    cabinw  
    OP
       2012-11-18 16:19:24 +08:00
    @eric_q thanks,后来我也发现这个api了,看文档不够仔细阿,哈哈
    chendahui007
        24
    chendahui007  
       2012-11-18 16:32:44 +08:00
    @cabinw 那可以观摩你之前写的代码么?俺是新手,很新的手,没啥思路 ...`从IMDB id tt0000000 到 tt9999999遍历访问一遍豆瓣的电影信息 ` 这 它们怎么关联的 ,求思路
    cabinw
        25
    cabinw  
    OP
       2012-11-18 17:50:14 +08:00
    @chendahui007 gtalk:cabinw#gmail.com
    lj0014
        26
    lj0014  
       2012-11-18 21:20:43 +08:00
    楼主爬了多少豆瓣电影了,据说有40W,我现在就爬了7W~
    cabinw
        27
    cabinw  
    OP
       2012-11-18 22:28:28 +08:00
    @lj0014 哈哈,我已经停止了,本来有10来万的样子,交流下?
    lj0014
        28
    lj0014  
       2012-11-19 10:13:07 +08:00
    @cabinw 加你gtalk了
    xi4nyu
        29
    xi4nyu  
       2012-11-19 11:25:34 +08:00
    多核机子上面应该对应核数启,才能达到最大性能.
    feilaoda
        30
    feilaoda  
       2012-11-19 12:41:51 +08:00
    @cabinw 用你的代码,也只爬了7w多的数据。不知道其他的链接怎么找到。
    BigZ
        31
    BigZ  
       2012-11-19 14:23:45 +08:00
    异步?还快速?太黑了
    丢我们采集界的脸

    采集界有个原则,单线程同步采集,必要的时候还要sleep几秒
    lj0014
        32
    lj0014  
       2012-11-19 15:59:22 +08:00
    @BigZ 我用scrapy 有限速的……
    cabinw
        33
    cabinw  
    OP
       2012-11-19 16:27:47 +08:00
    @BigZ 汗~小白不懂规矩,在这里向采集界各位前辈赔礼道歉了~ Sorry!不过我最后没有这么做
    sohoer
        34
    sohoer  
       2012-11-19 17:05:06 +08:00
    @BigZ 呵呵,混哪的
    lemon1992
        35
    lemon1992  
       2013-12-16 16:56:58 +08:00
    @BigZ 我觉着还好吧,异步的库足够好的话,性能和单线程同步区别也不算大。各有优劣吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1605 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 00:00 · PVG 08:00 · LAX 17:00 · JFK 20:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.