搞定 robots，你有什么好的建议吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3774 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在做一个关于爬虫的小东西，但是需要解析robots.txt(网站根目录下,例如:www.v2ex.com/robots.txt或者是www.baidu.com/robots.txt),该协议定义了网站哪些目录下的文件可以被爬取，哪些不能爬取，当然我还是有自知之明的，知道全部解析是不可能的，只是想要解析
User-agent:*
Disallow:*
那一段。
拿v2ex举例吧！
User-agent: *

Disallow: /backstage/
Disallow: /signin
Disallow: /signout
Disallow: /settings

该网站表示上面四个目录下的任何东西不允许被爬取

baidu比较叼，对于不出名的爬虫，任何目录都不准爬取
User-agent: *
Disallow: /

但是这个要解析文本，大家有什么好的建议，或者是解析工具嘛？能够解析的代码也行
自己手写也行，也不是很麻烦，只是网上搜了，感觉这方面的不是很多

最后感谢各位v2er们！

解析

爬虫

user

7 条回复 • 2014-07-29 14:56:12 +08:00