V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
66beta
V2EX  ›  问与答

[求推荐] 整站Url抓取工具,只要Url,不要页面内容

  •  
  •   66beta · 2013-10-22 17:45:02 +08:00 · 4138 次点击
    这是一个创建于 4046 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有个客户网站,栏目都没有列表页,很多页面都藏得很深。(无法进后台,无法看数据库)

    有没有这样的工具,可以抓取全部的URL,就可以自己整理了:

    http://localhost/aaa/001
    http://localhost/aaa/002
    http://localhost/aaa/003
    http://localhost/aaa/004

    http://localhost/bbb/001
    http://localhost/bbb/002
    http://localhost/bbb/003

    就可以统计出aaa栏目下有哪些URL,bbb栏目下有哪些URL

    现在进入http://localhost/aaa/,是直接跳转到aaa下最新的一篇,太苦逼了
    5 条回复    1970-01-01 08:00:00 +08:00
    wenjuncool
        1
    wenjuncool  
       2013-10-22 18:27:06 +08:00
    自己开发吧
    soho176
        2
    soho176  
       2013-10-22 19:22:00 +08:00
    用火车头 采集网址吧
    manoon
        3
    manoon  
       2013-10-22 19:42:06 +08:00
    循环生成
    aaa/001
    aaa/002
    aaa/nnn

    循环访问aaa/nnn
    如果404 退出
    如果200 加到列表
    最后你需要的列表


    应该很清晰了吧。
    nsxuan
        4
    nsxuan  
       2013-10-22 19:49:20 +08:00
    wget 即可把 有个 不下载 写入列表
    66beta
        5
    66beta  
    OP
       2013-10-23 11:09:46 +08:00
    @wenjuncool @manoon 不会写啊,会写就不来问了~

    @soho176 试了下,不会玩,貌似不能自动向下采集URL

    @nsxuan wget如何做到?google了下没找到
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3353 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:23 · PVG 20:23 · LAX 04:23 · JFK 07:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.