V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xiaoyustudio
V2EX  ›  问与答

大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况?

  •  
  •   xiaoyustudio · 2016-01-29 02:50:18 +08:00 · 2632 次点击
    这是一个创建于 3256 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面,大家有没有碰到过类似的情况?都是怎么解决的...直接屏蔽掉百度爬出么?

    15 条回复    2016-01-29 12:44:32 +08:00
    580a388da131
        1
    580a388da131  
       2016-01-29 03:14:23 +08:00
    修改 robots 后有 一段时间内蜘蛛还回来
    Andy1999
        2
    Andy1999  
       2016-01-29 04:28:09 +08:00 via iPhone
    谷歌也不遵守,悉听尊便吧
    Khlieb
        3
    Khlieb  
       2016-01-29 04:43:55 +08:00 via Android
    坐等大神出来分析
    czb
        4
    czb  
       2016-01-29 05:41:11 +08:00 via Android
    有验证是真的 spider 吗
    ryd994
        5
    ryd994  
       2016-01-29 06:29:32 +08:00 via Android
    怎么单独屏蔽百度爬虫?真心要爬你,换个 UA 就行了
    要屏蔽就要屏蔽所有(至少绝大部分)爬虫
    DesignerSkyline
        6
    DesignerSkyline  
       2016-01-29 08:19:15 +08:00
    只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之
    xrui
        7
    xrui  
       2016-01-29 08:24:34 +08:00 via Android
    对,直接 403
    keinx
        8
    keinx  
       2016-01-29 09:03:56 +08:00
    蜘蛛是会来爬的,但是不一定收录。
    Hello1995
        9
    Hello1995  
       2016-01-29 09:17:01 +08:00 via Android
    @ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样,屏蔽之,亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。
    xiaoyustudio
        10
    xiaoyustudio  
    OP
       2016-01-29 10:36:34 +08:00
    @czb IP 地址查了一下确实是百度的...
    xujif
        11
    xujif  
       2016-01-29 11:19:36 +08:00
    难道不知道现在很多采集程序都把自己标记为 spider 吗
    libook
        12
    libook  
       2016-01-29 12:15:39 +08:00
    我们是用 Nginx 检测 UA ,然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
    阴谋论:别的厂商的爬虫用了百度的 UA ?
    还有个好方法是用 Angular 路由,百度爬不到#之后的部分。。。
    xiaoyustudio
        13
    xiaoyustudio  
    OP
       2016-01-29 12:35:42 +08:00
    @czb @xujif @libook, 之前想到过阴谋论... 然后 double check 了一下各种 IP 发现确实是百度的.... 再观察一下好了 如果实在太嚣张就 .htaccess UA 识别一下全部 redirect 到主页哈哈... 感谢大家!
    wy315700
        14
    wy315700  
       2016-01-29 12:38:56 +08:00
    robots.txt 只是规定了不收录,但是没有规定不爬取
    TheCure
        15
    TheCure  
       2016-01-29 12:44:32 +08:00
    是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录

    比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的

    如果你 disallow 根目录,那是不会来爬了
    估计百度一开始的实现有问题,后来规模大了问题很难修改?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1148 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 18:25 · PVG 02:25 · LAX 10:25 · JFK 13:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.