刚才在阮一峰的周报中看到一句话「每个人都应该有一个网站。它会被安全地保存在 archive.org 中,供你的后代研究和思考。网站的可持久性,比社交媒体好得多,也比人们以为的更长久。」
其实我都没有怎么用过 archive.org ,刚才跑去将自己几年前做的一个小网站地址输入了进入,该网站早已停了,居然被收录了! archive.org 难道是真的爬全网并收录?!
1
InDom 2023-08-18 09:30:37 +08:00
一样,找到了我曾经十几年前的旧博客,回忆满满啊。
|
2
titanium98118 2023-08-18 09:33:04 +08:00
能收录到的肯定只是一少部分网站,你可以手动让它去收录。
至于它的收录规则是怎样,没去了解过。 |
3
Tink 2023-08-18 09:33:19 +08:00 via Android
不然嘞
|
4
cairnechen 2023-08-18 09:33:59 +08:00
确实能找到很多历史存照,但用多了你就知道有很多是没有收录进去的
|
5
vueli 2023-08-18 09:41:30 +08:00 4
|
6
coolair 2023-08-18 09:49:05 +08:00
并没有爬全网,我原来自己做过的个人站没有一个被收录的。
|
7
goldenalex 2023-08-18 09:49:25 +08:00
|
8
estk 2023-08-18 09:53:24 +08:00 7
之前滴滴被下架,官网也没 apk 可以下载,去第三方下 apk 不放心,于是去 archive ,它竟然连 apk 文件都缓存,直接下载了。。
|
10
28Sv0ngQfIE7Yloe 2023-08-18 09:57:29 +08:00 1
当时闲鱼买了个洋垃圾音响,官网都挂了,结果在 archive 里找到了缓存,下载到了最后一版固件,正好把我的问题给修复了
|
11
davin 2023-08-18 10:04:34 +08:00
很想找到当年谷歌还没退出大陆时候的首页快照截图,翻了很久也没找到。记得当年搜索框底下,有几个会动的图标是用纯 CSS 写的,鼠标经过时,精灵图变换坐标位置,在当年看起来还是挺时尚的。有没有大佬能找到当年这个快照截图呀😅
|
12
zhangshine 2023-08-18 10:08:52 +08:00
一部分,现在 aigc 的原因连 google 都爬不过来了,更别提 archive 了
|
13
tony1016 2023-08-18 10:10:25 +08:00 1
初次认识这个网站,是因为 tiny 11
|
14
kassol 2023-08-18 10:54:34 +08:00
刚进去找到自己十二年前的 blog ,虽然当时的 WordPress 正文页没有 archive ,但是看列表也都满满都是回忆了🤣,倒是后来的 Hexo 有 archive 到全部的页面
|
15
maemolee 2023-08-18 10:57:01 +08:00
我看了一下,我的博客也能搜得到,厉害了
|
16
Biggoldfish 2023-08-18 10:57:55 +08:00 via Android
Google 就是爬全网收录、定期更新、rank 然后提供检索
|
17
gpt5 2023-08-18 11:00:44 +08:00
导出不是很友好,我记得必须用他们自己的那个 cms 。
给个导出为静态页面的选项多方便啊!! |
18
Maboroshii 2023-08-18 11:21:54 +08:00 via Android
有的不行。比如阿里云盘当时说永不限速,结果用 archieve 看,是看不到当时的网站内容的
|
19
1423 2023-08-18 11:37:41 +08:00 1
|
20
stillyu 2023-08-18 13:12:39 +08:00
|
21
bclerdx 2023-08-18 13:18:58 +08:00 via Android
@zhangshine 被所谓的互联网不是法外之地所蒙蔽了。
|
22
zjj19950716 2023-08-18 14:25:04 +08:00
看了下不同时间点的 hao123,4399 ,回忆涌上心头
|
23
chesha1 2023-08-18 14:26:27 +08:00
知乎不允许这个网站爬,只有 archive.today 才能爬的了知乎,archive.today 这个网站虽然规模不如 archive.org 大,但也有不少 archive.org 覆盖不到的资源
|
24
BeforeTooLate 2023-08-18 15:06:52 +08:00
为啥网站我打得开但是是一篇空白
|
25
Charbo 2023-08-18 15:12:12 +08:00 1
@BeforeTooLate 带上 https 就行
|
26
kaychen 2023-08-18 15:47:24 +08:00
太酷啦.....回忆满满
|
27
devswork 2023-08-18 15:53:32 +08:00 1
问一个不该问的问题,pornhub 上的视频也被收录吗...........几年前 PH 因为修改政策,部分视频被删除了
|
28
SunsetShimmer 2023-08-18 16:04:19 +08:00
@stillyu #20 因为它不是保存 DOM (?),而是所有的网页资源(图片 css js 任何常规浏览器会请求的东西)。只保存当时页面内容的是 https://archive.ph/
|
30
id80108900 2023-08-18 17:00:18 +08:00
确实。
帮我保存了很多黑历史,但时间拉长,确实都属于宝贵的回忆。 |
31
craiiz 2023-08-18 18:00:15 +08:00
我的博客被保存了好多,没有主动提交过。
|
32
pheyer 2023-08-18 18:16:57 +08:00
十多年前的博客名字都忘记了,只记得博客大巴上的,这怎么找
|
33
miaomiao888 2023-08-18 19:39:33 +08:00
之前有個開源項目的作者把項目名改了,舊版本的源碼也刪了,新版本越來越不好用,又不好意思麻煩作者,上 archive.org 一搜還真有,甚至連 zip 的源碼壓縮包都有備份。
但其實也是幸運,有時搜一些小網站也是沒結果,可能對主流網站比較友好。 這種項目和維基一樣偉大,越來越沒有記憶的互聯網很需要它。 |
34
BwNVlwSq 2023-08-18 20:35:38 +08:00 via iPhone
很棒的网站,很多删掉的页面都有保存上
|
35
atrexl 2023-08-18 20:50:38 +08:00 via Android
这网站十几年前就有了啊
|
36
JensenQian 2023-08-18 21:17:08 +08:00 via Android
我博客用的域名查到以前是大姐姐站
|
37
JensenQian 2023-08-18 21:18:00 +08:00 via Android
@JensenQian 我扫了个没人注册的三杂 cc ,往前翻了下是大姐姐站
|
38
NnMmOo 2023-08-18 22:09:20 +08:00 2
archive.org 只要一直做下去,会成为信息时代之后人类最宝贵的文化遗产,没有之一
|
39
laogui 2023-08-18 22:16:30 +08:00 via Android 1
很多年没去这网站了,看到我 20 多年前做的网页,快哭了。https://web.archive.org/web/20021128122856/http://sie.y365.com/
|
40
shakoon 2023-08-18 22:32:28 +08:00
二十年前我在自己 pc 上做的几个静态网页也收录得有,是当年我自己架的资源下载 ftp 的目录。可能因为我曾经在百度贴吧发帖宣传过才被收录的。
|
42
zjp 2023-08-18 22:47:40 +08:00
想起来今年给 archive.org 捐了 20$。存储 832 billion 个网页真的是一个恐怖的数字
|
43
bao3 2023-08-18 22:53:30 +08:00
冷知识:很多软件、游戏机 ROM 你都可以点它来保存,不犯法。以后可以在任意时间找出来下载。找游戏 ROM 和软件的不二选择
|
44
Equiliu 2023-08-18 23:00:55 +08:00
查了 13 年前做的独立博客,没有数据。域名过期也有十年了
|
45
FragmentLs 2023-08-18 23:02:04 +08:00
@NnMmOo 然而他们常年被版权商告
|
46
lianyue 2023-08-18 23:28:32 +08:00
2011 的独立博客 在上面找到了
|
47
beyondex 2023-08-19 11:14:21 +08:00
很多年以前我做的网页被收录了,不过漏掉的不少。
|
48
xiaomoxian 2023-08-21 02:06:51 +08:00 via Android
嗯,找到了我之前的果照,回忆满满。
|
49
xavierskip 112 天前
https://archive.ph/ 为啥挂了?
|