V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
rrfeng
V2EX  ›  问与答

有没有办法从 Google cached 中把一个站点的页面 down 下来?

  •  
  •   rrfeng · 2013-05-21 08:36:11 +08:00 · 2526 次点击
    这是一个创建于 4213 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如一个已经撤掉的页面,没有办法直接访问了,可以搜索
    关键字 site:xxx.yyy.com
    可以下载到缓存的版本。

    实际的需求是,我不知道到这些页面里有什么关键字,而且要批量的 down 下来。
    7 条回复    1970-01-01 08:00:00 +08:00
    alexrezit
        1
    alexrezit  
       2013-05-21 08:38:42 +08:00 via iPhone
    试试 archive.org 呢?
    muzuiget
        2
    muzuiget  
       2013-05-21 09:22:32 +08:00   ❤️ 1
    如果是博客类的站点,找它的 feed,然后在 Google Reaqder 里扒出来

    http://www.google.com/reader/atom/feed/${feed_url}?n=9999

    不然得话就得自己用 Python 之类的语言自己写个爬虫了,把快照页面里的链接一个个再替换成快照地址,一直递归下去。

    如果不是下载仅是浏览的话,我已经写过一个油猴脚本了

    http://userscripts.org/scripts/show/40822
    rrfeng
        3
    rrfeng  
    OP
       2013-05-21 10:05:42 +08:00
    @muzuiget
    之前找了半天 takeout 里没有导出文章内容的选项,原来这样啊~

    还有一个问题,假如我订阅 rss 的时候,某篇文章已经被删除了,GR 也不会有这篇文章的吧?
    csx163
        4
    csx163  
       2013-05-21 10:21:06 +08:00
    @rrfeng 被删了也有这篇文章的
    rrfeng
        5
    rrfeng  
    OP
       2013-05-21 10:39:19 +08:00
    @muzuiget
    one more question
    这个链接导出来的是 GR 专有的 xml 格式么?有没有简单的办法还原成视觉友好的页面?

    所谓简单就是 比如加个<rss></rss>标签,chrome 就可以解析了这种

    没有就只能自己写程序转一下了。。。

    ====================
    看来真的是很特别的xml
    muzuiget
        6
    muzuiget  
       2013-05-21 13:50:36 +08:00
    @rrfeng GR 的那个地址也是一个标准的 feed,相当于备份 + 合烧。
    rrfeng
        7
    rrfeng  
    OP
       2013-05-21 14:21:41 +08:00
    @muzuiget
    准备拿python练手,把它转成html了。
    不过还是不全呢,blog有200+,GR 里只有不到100文章
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1104 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:51 · PVG 02:51 · LAX 10:51 · JFK 13:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.