V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nicoljiang
V2EX  ›  程序员

爬虫爬的太多了,大家一般怎么应对这个问题。

  •  
  •   nicoljiang · 2018-09-21 13:38:40 +08:00 · 4594 次点击
    这是一个创建于 2015 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前写过一个帖子,屏蔽大量价值不高的爬虫,就是因为无关爬虫爬的太多了。
    当时所有爬虫的请求加到一起大致 300 万,无关爬虫(非重要搜索引擎)就占了 240 万一天。

    屏蔽了之后效果很好~
    但现在。。。百度、yandex、bing、Google 加起来都快 200 万了。。。其中 Google 占 180 万(之前就 20 万一天)。

    想问大家有遇到过这个问题吗,如何应对~

    PS:关键的问题是,来自 Google 的流量虽然是主导,但远远没有这么大的比例,会感觉不太划算,但又不敢做策略。
    17 条回复    2020-04-30 18:31:00 +08:00
    SukkaW
        1
    SukkaW  
       2018-09-21 13:44:26 +08:00 via Android   ❤️ 4
    应该是爬虫伪装成搜索引擎 UA 了。在服务端配个检查爬虫 IP 的 ASN 吧。
    nicoljiang
        2
    nicoljiang  
    OP
       2018-09-21 14:00:15 +08:00
    @SukkaW 这是什么高难度操作啊。。。哭哭
    vtwoextb
        3
    vtwoextb  
       2018-09-21 14:03:20 +08:00
    ip 黑名单,其实就是攻与防,京东的防爬虫已经做的不错了,但是我写了一个更换 ip 的测试,依然防不住 https://github.com/hizdm/dynamic_ip
    nicoljiang
        4
    nicoljiang  
    OP
       2018-09-21 15:15:20 +08:00
    @vtwoextb 其实相比被爬数据这个点,我目前更心疼服务器负载和流量。已经连续四天超量采集了,难受。
    SukkaW
        5
    SukkaW  
       2018-09-21 15:21:32 +08:00   ❤️ 4
    @nicoljiang 其实还可以检查 Google 爬虫 UA 到访 IP 的 rdns,真 GoogleBot 的 rdns 是会带 googlebot.com 的。
    leir
        6
    leir  
       2018-09-21 15:24:04 +08:00 via iPhone
    楼主网站啥类型?
    zarte
        7
    zarte  
       2018-09-21 15:26:05 +08:00
    什么站点呀?爬的频率这么高
    nicoljiang
        8
    nicoljiang  
    OP
       2018-09-21 15:40:36 +08:00
    @SukkaW 哦哦 好像这是个好办法,我看看怎么试一下。
    nicoljiang
        9
    nicoljiang  
    OP
       2018-09-21 15:41:18 +08:00
    @zarte
    @leir
    就普通的内容站,实际上之前并没有这么多,这几天翻了十倍,有点扛不住。
    t6attack
        10
    t6attack  
       2018-09-21 15:55:10 +08:00   ❤️ 1
    也不要乱封。javaeye ( iteye )曾被封锁过。原因是自己编写的反爬虫系统,把 ISP 内容监控的爬虫给封了。
    https://news.cnblogs.com/n/81922/

    这是其创始人之前的抱怨文章( 2007 年): http://robbin.iteye.com/blog/53075
    及分析文章( 2009 年): http://www.360doc.com/content/12/0102/17/1997902_176691774.shtml
    不知为什么,讲反爬虫的这两篇文章原文被删了。
    nicoljiang
        11
    nicoljiang  
    OP
       2018-09-21 16:45:36 +08:00
    @t6attack 这个有点吓人啊。。。ISP 内容监控的爬虫???
    JungleHi
        12
    JungleHi  
       2018-09-21 16:52:30 +08:00
    Google 可以在 search console 里设置 限制每天抓取频率和数量
    另外建议看一下 URL 参数, 不相干的参数可以通过 robots.txt 屏蔽掉,以前遇到一个问题各种 filter 的参数互相叠加,几百万个 URL 组合,ROBOTS.TXT 没有禁止,服务器让 GOOGLE 爬虫搞得差点宕机了
    okjb
        13
    okjb  
       2018-09-21 16:56:26 +08:00 via Android
    啥网站啊,不会是草留根吧,龟龟
    nicoljiang
        14
    nicoljiang  
    OP
       2018-09-21 17:24:12 +08:00
    @JungleHi 哦 还没弄过 search console,去研究研究
    nicoljiang
        15
    nicoljiang  
    OP
       2018-09-21 17:24:27 +08:00
    @okjb 当然不是。。。。
    nicoljiang
        16
    nicoljiang  
    OP
       2018-09-21 17:25:07 +08:00
    @JungleHi 但我的 url 其实很干净,只有 0-1 个参数。
    quyi679911
        17
    quyi679911  
       2020-04-30 18:31:00 +08:00
    nicoljiang 你能将多吉搜索市场化吗,我们 用搜索 不排斥广告,只是希望不误导 期待你的回复!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5468 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 55ms · UTC 08:54 · PVG 16:54 · LAX 01:54 · JFK 04:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.