V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
briefcopy
V2EX  ›  Java

JAVA 爬虫 WebCollector 2.x 入门教程——基本概念

  •  
  •   briefcopy · 2015-12-25 10:29:43 +08:00 · 3672 次点击
    这是一个创建于 3038 天前的主题,其中的信息可能已经有所发展或是发生改变。

    JAVA 爬虫 WebCollector 2.x 入门教程——基本概念

    摘要:
    WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),它提供精简的的 API ,只需少量代码即可实现一个功能强大的爬虫。 WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本,支持分布式爬取。

    10 条回复    2015-12-28 18:52:39 +08:00
    ca1123
        1
    ca1123  
       2015-12-25 12:30:03 +08:00
    你写的?
    briefcopy
        2
    briefcopy  
    OP
       2015-12-25 12:51:36 +08:00
    @ca1123 是的
    SparkMan
        3
    SparkMan  
       2015-12-25 13:07:25 +08:00
    爬虫的关键(或者难点)是如何不被封 IP ,至于怎么抓取页面 httpclient 跟其他组件都差不多
    lx19930805
        4
    lx19930805  
       2015-12-25 18:23:42 +08:00
    @SparkMan 恩恩.然后呢?如何不被封 IP?
    被封 IP 是因为多次大量的访问某个域名的网址吧,刚接触是这么理解的
    geekboy
        5
    geekboy  
       2015-12-25 20:05:16 +08:00
    最近研究的是爬虫的增量更新问题~用的 webmagic 框架!
    briefcopy
        6
    briefcopy  
    OP
       2015-12-25 23:42:33 +08:00
    @SparkMan 爬虫的关键,是爬取允许爬取的数据,有效利用。比如搜索引擎还是要遵守 robots.txt 的。反爬就是网站不想让你爬,用随机高匿代理之类的解决反爬技术很成熟,但是有点抢劫的性质。
    sefemp
        7
    sefemp  
       2015-12-26 09:02:51 +08:00
    @geekboy 是说诸如论坛数据之类的么
    zonghua
        8
    zonghua  
       2015-12-26 09:56:50 +08:00
    @SparkMan 关键不是分析数据?
    ooTwToo
        9
    ooTwToo  
       2015-12-28 16:56:37 +08:00
    头像有点像汪峰。
    briefcopy
        10
    briefcopy  
    OP
       2015-12-28 18:52:39 +08:00
    @ooTwToo 这明明是斯诺登。。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2819 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 02:28 · PVG 10:28 · LAX 19:28 · JFK 22:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.