V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
thinkmore
V2EX  ›  程序员

搞定 robots,你有什么好的建议吗?

  •  
  •   thinkmore ·
    generalthink · 2014-07-28 19:14:34 +08:00 · 3183 次点击
    这是一个创建于 3774 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在做一个关于爬虫的小东西,但是需要解析robots.txt(网站根目录下,例如:www.v2ex.com/robots.txt或者是www.baidu.com/robots.txt),该协议定义了网站哪些目录下的文件可以被爬取,哪些不能爬取,当然我还是有自知之明的,知道全部解析是不可能的,只是想要解析
    User-agent:*
    Disallow:*
    那一段。
    拿v2ex举例吧!
    User-agent: *

    Disallow: /backstage/
    Disallow: /signin
    Disallow: /signout
    Disallow: /settings

    该网站表示上面四个目录下的任何东西不允许被爬取

    baidu比较叼,对于不出名的爬虫,任何目录都不准爬取
    User-agent: *
    Disallow: /

    但是这个要解析文本,大家有什么好的建议,或者是解析工具嘛?能够解析的代码也行
    自己手写也行,也不是很麻烦,只是网上搜了,感觉这方面的不是很多

    最后感谢各位v2er们!
    7 条回复    2014-07-29 14:56:12 +08:00
    14
        1
    14  
       2014-07-28 19:25:14 +08:00
    Python 标准库就有解析器。。。
    https://docs.python.org/2/library/robotparser.html
    imn1
        2
    imn1  
       2014-07-28 19:26:13 +08:00
    首先说什么语言,python就有robotparser可以用
    thinkmore
        3
    thinkmore  
    OP
       2014-07-28 23:11:55 +08:00
    @14
    @imn1
    我想要知道的是Java有吗?
    14
        4
    14  
       2014-07-28 23:19:41 +08:00
    thinkmore
        5
    thinkmore  
    OP
       2014-07-29 09:28:55 +08:00
    @14 如果你是建议我在谷歌搜索的话,真心的这个地址速度太慢了
    http://203.211.0.7/这个挺快的
    我去google试一试,thanks
    thinkmore
        6
    thinkmore  
    OP
       2014-07-29 11:06:14 +08:00
    @14
    @imn1
    Crawler-Commons怎么使用?可以给出一个小例子或者文档嘛?
    thinkmore
        7
    thinkmore  
    OP
       2014-07-29 14:56:12 +08:00
    已经搞定了,stackoverflow果然强大
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5427 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 08:25 · PVG 16:25 · LAX 00:25 · JFK 03:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.