V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
EmdeBoas
V2EX  ›  Java

大家好,我写了一个爬.......啊!别打我....不是爬虫....是爬虫调度器

  •  
  •   EmdeBoas ·
    xiongbeer · 2017-05-21 18:35:56 +08:00 · 4029 次点击
    这是一个创建于 2523 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自己写了一个可以把单机 java 爬虫比较快捷的整合成分布式爬虫的框架

    框架会为爬虫的工作节点自动分发任务,完成去重功能,而且有比较高的稳定性(牺牲了一些效率),单点故障和集群崩溃都不必担心,关键持久化的步骤都是原子性的,不会丢失数据~

    这个框架不关心你使用的是什么爬虫框架,也就说爬虫的业务逻辑跟他无关,是松耦合的,所以适用性是比较好的

    项目是基于 zookeeper+hdfs+netty 上的,也就说只要有 zookeeper 和 hadoop 环境就能很快速的部署啦
    自己也做了简单的单机测试和集群测试( 7 虚拟机 hadoop 的 HA 集群,逃)
    虽然现在功能还不是特别强大,但是整体的框架已经搭好了,未来的规划我也已经做好了,我会努力让它变得强大起来的~

    提供了 shell 交互的功能也有 java 的 api,也基于 tomcat 和 AmdinLTE 写了一个网页监控的 demo
    后面会推出 python 和 go 的接口~
    项目地址在这里~ WebVeins
    文档后面我会很细致的去写,把自己踩过的坑和想法都写进去,如果你想学习而且刚刚接触 zookeeper 说不定会有一点点帮助 (逃)

    因为暑假以后要准备找工作了,所以想宣传一下自己的这个项目,望大家能支持一下,感激不尽!!

    8 条回复    2017-05-22 09:05:51 +08:00
    qcloud
        1
    qcloud  
       2017-05-21 18:59:53 +08:00 via iPhone
    贼 6
    AsherG
        2
    AsherG  
       2017-05-21 19:00:28 +08:00
    那还是要打啊
    viko16
        3
    viko16  
       2017-05-21 20:08:44 +08:00
    哈哈,本来是单机打你,现在是集群一齐来打你了 2333
    voocel
        4
    voocel  
       2017-05-21 20:12:29 +08:00 via Android
    不是爬虫更要打
    leeg810312
        5
    leeg810312  
       2017-05-21 20:56:16 +08:00 via Android
    666
    ihuotui
        6
    ihuotui  
       2017-05-21 20:59:59 +08:00 via iPhone
    哈哈
    luckyscript
        7
    luckyscript  
       2017-05-22 09:04:02 +08:00
    居然是我电的,666
    knight322
        8
    knight322  
       2017-05-22 09:05:51 +08:00
    啪!!!呀,打错了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5387 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 01:22 · PVG 09:22 · LAX 18:22 · JFK 21:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.