V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
des
V2EX  ›  问与答

网站受到爬虫的攻击??

  •  
  •   des · 2016-03-20 14:13:49 +08:00 via Android · 4363 次点击
    这是一个创建于 2956 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网站突然有大量的百度爬虫访问,频次特别高,每秒几乎上百请求,都是不存在的页面。 而且查证确实是百度的爬虫,请问这是啥情况?

    8 条回复    2016-03-20 18:48:34 +08:00
    UnisandK
        1
    UnisandK  
       2016-03-20 14:39:10 +08:00

    像这种地方是可以让百度的爬虫去爬你的网站的

    DNS 先把百度爬虫解析到 127.0.0.1 去吧
    DesignerSkyline
        2
    DesignerSkyline  
       2016-03-20 15:12:55 +08:00
    上纯 CHACHA20_POLY1305 ,百度就会失去爬取你网站的兴趣了。。。。
    Andy1999
        3
    Andy1999  
       2016-03-20 15:53:37 +08:00 via iPhone
    有种东西叫 UA 伪造
    ivmm
        4
    ivmm  
       2016-03-20 16:31:10 +08:00
    @UnisandK 那岂不是没收录了
    lecher
        5
    lecher  
       2016-03-20 16:39:33 +08:00
    也许不是百度的爬虫,只是伪造了百度爬虫的 useragent 。
    实际上百度如果有每秒几百的抓取频率,那就要笑疯了,赶紧构造界面刷 SEO 排名去,这能构造多少百度收录出来啊。
    des
        6
    des  
    OP
       2016-03-20 16:59:24 +08:00 via Android
    @Andy1999
    @lecher 的确是百度蜘蛛的 ip
    bazingaterry
        7
    bazingaterry  
       2016-03-20 18:36:29 +08:00 via iPhone
    @des 我当年也是,百度爬虫能把我个人网站爬死机,后来用 IPTABLES DROP 了就好了……
    dzxx36gyy
        8
    dzxx36gyy  
       2016-03-20 18:48:34 +08:00 via Android
    去注册百度站长,然后调整爬虫抓取频率
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5420 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 03:40 · PVG 11:40 · LAX 20:40 · JFK 23:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.