V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gap
V2EX  ›  分享发现

archive.org 惊到了

  •  1
     
  •   gap · 253 天前 · 7292 次点击
    这是一个创建于 253 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刚才在阮一峰的周报中看到一句话「每个人都应该有一个网站。它会被安全地保存在 archive.org 中,供你的后代研究和思考。网站的可持久性,比社交媒体好得多,也比人们以为的更长久。」

    其实我都没有怎么用过 archive.org ,刚才跑去将自己几年前做的一个小网站地址输入了进入,该网站早已停了,居然被收录了! archive.org 难道是真的爬全网并收录?!

    48 条回复    2023-08-21 02:06:51 +08:00
    InDom
        1
    InDom  
       253 天前
    一样,找到了我曾经十几年前的旧博客,回忆满满啊。
    titanium98118
        2
    titanium98118  
       253 天前
    能收录到的肯定只是一少部分网站,你可以手动让它去收录。
    至于它的收录规则是怎样,没去了解过。
    Tink
        3
    Tink  
       253 天前 via Android
    不然嘞
    cairnechen
        4
    cairnechen  
       253 天前
    确实能找到很多历史存照,但用多了你就知道有很多是没有收录进去的
    vueli
        5
    vueli  
       253 天前   ❤️ 4
    我刚刚去看了一下自己的网站,tmd 被腾讯拦截了,要我去备案
    coolair
        6
    coolair  
       253 天前
    并没有爬全网,我原来自己做过的个人站没有一个被收录的。
    goldenalex
        7
    goldenalex  
       253 天前
    早年的互联网上数据很小的,全网爬一下没啥。。。

    爆发应该是 iphone 出来之后的事情了。。。

    而且 archive.org 是爬文本为主的,多数的图片都没了。。。
    estk
        8
    estk  
       253 天前   ❤️ 7
    之前滴滴被下架,官网也没 apk 可以下载,去第三方下 apk 不放心,于是去 archive ,它竟然连 apk 文件都缓存,直接下载了。。
    GoTop
        9
    GoTop  
       253 天前
    @estk 它真的,我哭死
    Morii
        10
    Morii  
       253 天前   ❤️ 1
    当时闲鱼买了个洋垃圾音响,官网都挂了,结果在 archive 里找到了缓存,下载到了最后一版固件,正好把我的问题给修复了
    davin
        11
    davin  
       253 天前
    很想找到当年谷歌还没退出大陆时候的首页快照截图,翻了很久也没找到。记得当年搜索框底下,有几个会动的图标是用纯 CSS 写的,鼠标经过时,精灵图变换坐标位置,在当年看起来还是挺时尚的。有没有大佬能找到当年这个快照截图呀😅
    zhangshine
        12
    zhangshine  
       253 天前
    一部分,现在 aigc 的原因连 google 都爬不过来了,更别提 archive 了
    tony1016
        13
    tony1016  
       253 天前   ❤️ 1
    初次认识这个网站,是因为 tiny 11
    kassol
        14
    kassol  
       253 天前
    刚进去找到自己十二年前的 blog ,虽然当时的 WordPress 正文页没有 archive ,但是看列表也都满满都是回忆了🤣,倒是后来的 Hexo 有 archive 到全部的页面
    maemolee
        15
    maemolee  
       253 天前
    我看了一下,我的博客也能搜得到,厉害了
    Biggoldfish
        16
    Biggoldfish  
       253 天前 via Android
    Google 就是爬全网收录、定期更新、rank 然后提供检索
    gpt5
        17
    gpt5  
       253 天前
    导出不是很友好,我记得必须用他们自己的那个 cms 。
    给个导出为静态页面的选项多方便啊!!
    Maboroshii
        18
    Maboroshii  
       253 天前 via Android
    有的不行。比如阿里云盘当时说永不限速,结果用 archieve 看,是看不到当时的网站内容的
    1423
        19
    1423  
       253 天前   ❤️ 1
    不止呢,再重新惊一次
    搜一下 mkv BDMV. 好多影视资料也在,几百 G 的圆盘也有
    stillyu
        20
    stillyu  
       253 天前
    我有一个网页,是记录前女友从出生到现在的时间
    实现逻辑就是前端获取当前的时间戳 - 出生时间戳
    archive.org 上不同日期的缓存,算出来的竟然都是当时的结果
    bclerdx
        21
    bclerdx  
       253 天前 via Android
    @zhangshine 被所谓的互联网不是法外之地所蒙蔽了。
    zjj19950716
        22
    zjj19950716  
       253 天前
    看了下不同时间点的 hao123,4399 ,回忆涌上心头
    chesha1
        23
    chesha1  
       253 天前
    知乎不允许这个网站爬,只有 archive.today 才能爬的了知乎,archive.today 这个网站虽然规模不如 archive.org 大,但也有不少 archive.org 覆盖不到的资源
    BeforeTooLate
        24
    BeforeTooLate  
       253 天前
    为啥网站我打得开但是是一篇空白
    Charbo
        25
    Charbo  
       253 天前   ❤️ 1
    @BeforeTooLate 带上 https 就行
    kaychen
        26
    kaychen  
       253 天前
    太酷啦.....回忆满满
    devswork
        27
    devswork  
       253 天前   ❤️ 1
    问一个不该问的问题,pornhub 上的视频也被收录吗...........几年前 PH 因为修改政策,部分视频被删除了
    SunsetShimmer
        28
    SunsetShimmer  
       253 天前
    @stillyu #20 因为它不是保存 DOM (?),而是所有的网页资源(图片 css js 任何常规浏览器会请求的东西)。只保存当时页面内容的是 https://archive.ph/
    tgich
        29
    tgich  
       253 天前
    之前在 blog.com 写博客,关闭后就是在这个网站找到的快照
    id80108900
        30
    id80108900  
       253 天前
    确实。
    帮我保存了很多黑历史,但时间拉长,确实都属于宝贵的回忆。
    craiiz
        31
    craiiz  
       253 天前
    我的博客被保存了好多,没有主动提交过。
    pheyer
        32
    pheyer  
       253 天前
    十多年前的博客名字都忘记了,只记得博客大巴上的,这怎么找
    miaomiao888
        33
    miaomiao888  
       253 天前
    之前有個開源項目的作者把項目名改了,舊版本的源碼也刪了,新版本越來越不好用,又不好意思麻煩作者,上 archive.org 一搜還真有,甚至連 zip 的源碼壓縮包都有備份。
    但其實也是幸運,有時搜一些小網站也是沒結果,可能對主流網站比較友好。
    這種項目和維基一樣偉大,越來越沒有記憶的互聯網很需要它。
    BwNVlwSq
        34
    BwNVlwSq  
       252 天前 via iPhone
    很棒的网站,很多删掉的页面都有保存上
    atrexl
        35
    atrexl  
       252 天前 via Android
    这网站十几年前就有了啊
    JensenQian
        36
    JensenQian  
       252 天前 via Android
    我博客用的域名查到以前是大姐姐站
    JensenQian
        37
    JensenQian  
       252 天前 via Android
    @JensenQian 我扫了个没人注册的三杂 cc ,往前翻了下是大姐姐站
    NnMmOo
        38
    NnMmOo  
       252 天前   ❤️ 2
    archive.org 只要一直做下去,会成为信息时代之后人类最宝贵的文化遗产,没有之一
    laogui
        39
    laogui  
       252 天前 via Android   ❤️ 1
    很多年没去这网站了,看到我 20 多年前做的网页,快哭了。https://web.archive.org/web/20021128122856/http://sie.y365.com/
    shakoon
        40
    shakoon  
       252 天前
    二十年前我在自己 pc 上做的几个静态网页也收录得有,是当年我自己架的资源下载 ftp 的目录。可能因为我曾经在百度贴吧发帖宣传过才被收录的。
    zjp
        41
    zjp  
       252 天前
    去看了自己博客域名的上一任,还有 05 年的 v2ex.com
    zjp
        42
    zjp  
       252 天前
    想起来今年给 archive.org 捐了 20$。存储 832 billion 个网页真的是一个恐怖的数字
    bao3
        43
    bao3  
       252 天前
    冷知识:很多软件、游戏机 ROM 你都可以点它来保存,不犯法。以后可以在任意时间找出来下载。找游戏 ROM 和软件的不二选择
    Equiliu
        44
    Equiliu  
       252 天前
    查了 13 年前做的独立博客,没有数据。域名过期也有十年了
    FragmentLs
        45
    FragmentLs  
       252 天前
    @NnMmOo 然而他们常年被版权商告
    lianyue
        46
    lianyue  
       252 天前
    2011 的独立博客 在上面找到了
    beyondex
        47
    beyondex  
       252 天前
    很多年以前我做的网页被收录了,不过漏掉的不少。
    xiaomoxian
        48
    xiaomoxian  
       250 天前 via Android
    嗯,找到了我之前的果照,回忆满满。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2744 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 11:54 · PVG 19:54 · LAX 04:54 · JFK 07:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.