V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
514146235
V2EX  ›  分享创造

开源、分布式爬虫系统 - Tarantula. 求 star

  •  
  •   514146235 · 2017-12-30 15:19:43 +08:00 · 3030 次点击
    这是一个创建于 2546 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 支持私有部署
    • 支持 JS 渲染
    • 工作节点水平扩容
    • 内置动态 IP
    • 在线导出数据

    Tarantula 的设计初衷是面向工程师的,支持大规模的任务爬取。此前日完成任务数平均在百万级( JS 渲染)。 友好性在不断完善中,但是不会发展成为点选式的爬取。因为在真实场景中这种方式局限性比较大。

    https://tarantula.tech

    6 条回复    2018-01-04 09:48:03 +08:00
    thursday
        1
    thursday  
       2017-12-30 17:20:16 +08:00
    项目太大,是不是写个项目架构介绍的其他人好了解自己感兴趣的那块
    514146235
        2
    514146235  
    OP
       2017-12-30 18:21:37 +08:00
    @thursday 文档方面后续会慢慢完善的。谢谢
    fiht
        3
    fiht  
       2017-12-31 10:19:52 +08:00
    弱弱的问一句,楼主你这种解析 JS 的爬虫遇到那种挖矿的网站是怎么解决的。(就是后台 JS 不停不停不停地占用 CPU 的情况)
    514146235
        4
    514146235  
    OP
       2017-12-31 11:04:55 +08:00   ❤️ 1
    @fiht
    js 挖矿通常是在一些用户停留时间比较长的页面才会部署。而且一般都是后台工作,不会影响用户的浏览行为。

    所以爬取任务在打开页面的完成的时候,抽取到了数据就会立即关闭这个页面。js 挖矿运行的时间不会很长,所以影响不大。如果真的是 js 执行时间较大,导致流程卡住了,那么最终调度程序也会限制每一个任务的超时时间,超过之后会直接 kill 掉。
    sunwei0325
        5
    sunwei0325  
       2018-01-04 04:00:19 +08:00
    为什么会依赖 python2 呢?
    514146235
        6
    514146235  
    OP
       2018-01-04 09:48:03 +08:00
    @sunwei0325 安装和编译环境需要依赖。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3084 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:14 · PVG 21:14 · LAX 05:14 · JFK 08:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.