V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
oblivion
V2EX  ›  程序员

亲手造成的运维事故:在 Live CD 环境下部署并运行了 8 个月

  oblivion · 2023-09-18 07:25:17 +08:00 · 33402 次点击
这是一个创建于 424 天前的主题,其中的信息可能已经有所发展或是发生改变。
前情提要:今年春节时去部署了一套内部系统,访问量不大,加上临近春节协调资源难,就先单机部署了,
对方提供的是 H3C 的物理机,准备安装 Ubuntu 系统,对运维要求带桌面安装,
中途被电话打断,回到机器旁边看到已经在 Ubuntu 桌面了以为对方运维帮装好了,
于是直接部署好了我们的系统,测试没问题就离开了,后面也一直相安无事,没出过什么问题。

直到昨天晚上组里同事去给他们更新部署,由于各种巧合提示磁盘空间不足,于是各种操作后给重启了机器,
发现.....进 Live CD 桌面,目录是空的,重启弹出光盘,提示找不到启动磁盘,
通宵一夜后就在刚刚给我打来了电话,我:????
各种记忆恢复术后想起来,当时 Ubuntu 压根就没装进硬盘啊?

由于是单机部署,暂时没想到能恢复数据的方法...
176 条回复    2024-07-07 15:30:54 +08:00
1  2  
LokiSharp
    1
LokiSharp  
   2023-09-18 07:29:09 +08:00 via iPhone   ❤️ 8
找对方运维背锅吧
lrh3321
    2
lrh3321  
   2023-09-18 07:43:06 +08:00
没有备份的数据都可以认为是不重要的,这锅对方运维至少有一半是跑不了的。
lloovve
    3
lloovve  
   2023-09-18 07:45:40 +08:00 via iPhone   ❤️ 2
正常人不会重启就备份数据吧?这个问题在于楼主,话说 livecd 应该一眼就能看出来啊,桌面有个安装图标
dcsuibian
    4
dcsuibian  
   2023-09-18 07:53:58 +08:00
牛逼
cmdOptionKana
    5
cmdOptionKana  
   2023-09-18 07:58:20 +08:00   ❤️ 2
我还是认为对方运维(甚至更高的领导)责任重大,重要的数据至少每 24 小时备份一次,看情况保留 3 至 10 个副本是“安全”级别的要求。
wangxiaoaer
    6
wangxiaoaer  
   2023-09-18 07:58:47 +08:00 via iPhone   ❤️ 6
两个大聪明。
0xsui
    7
0xsui  
   2023-09-18 08:03:43 +08:00
数据肯定恢复不了啊,都是跑在缓存和内容里面的,掉电清空了,能找回就见鬼了
kingfalse
    8
kingfalse  
   2023-09-18 08:06:29 +08:00 via Android   ❤️ 71
翻译翻译:win PE 里玩了 8 个月游戏。6666
davidyin
    9
davidyin  
   2023-09-18 08:10:27 +08:00 via Android
還以為服務器都是沒有桌面的。
Routeros
    10
Routeros  
   2023-09-18 08:18:00 +08:00
linux 真稳!
wonderfulcxm
    11
wonderfulcxm  
   2023-09-18 08:23:07 +08:00 via iPhone   ❤️ 15
本日最佳笑话
k9982874
    12
k9982874  
   2023-09-18 08:23:57 +08:00 via Android
两个运维都不做检查吗?
msg7086
    13
msg7086  
   2023-09-18 08:28:20 +08:00
没事,你就当硬盘坏了。
msg7086
    14
msg7086  
   2023-09-18 08:31:03 +08:00   ❤️ 1
@lloovve 正常的运维会每天(最差最差也是每月)自动化备份数据,优秀的运维会找方案做实时备份数据并制定 3-2-1 备份计划,极其优秀的运维还会每隔几个月做一次灾备演练。
wuzhewuyou
    15
wuzhewuyou  
   2023-09-18 08:45:21 +08:00   ❤️ 2
666

话说提示磁盘空间不足就没 df -h 看下磁盘空间啊
des
    16
des  
   2023-09-18 08:47:47 +08:00 via iPhone
两个大聪明,话说提示磁盘不足为什么需要重启?
roundgis
    17
roundgis  
   2023-09-18 08:49:46 +08:00 via Android
8 個月不備份說明也不是什麼重要的東西
devopsdogdog
    18
devopsdogdog  
   2023-09-18 08:58:08 +08:00   ❤️ 3
由于各种巧合提示磁盘空间不足,于是各种操作后给重启了机器
真的会运维吗? 随便一个 df 之类的都能发现吧。
ivslyyy
    19
ivslyyy  
   2023-09-18 09:00:34 +08:00   ❤️ 1
@kingfalse 单机本地存档游戏
Tink
    20
Tink  
   2023-09-18 09:04:16 +08:00
666666
yfixx
    21
yfixx  
   2023-09-18 09:06:18 +08:00 via Android
数据应该不重要吧
6IbA2bj5ip3tK49j
    22
6IbA2bj5ip3tK49j  
   2023-09-18 09:07:04 +08:00 via iPhone
搬小板凳看戏,太乐了。
formant
    23
formant  
   2023-09-18 09:07:54 +08:00   ❤️ 10
有卧龙的地方,必有凤雏
paopjian
    24
paopjian  
   2023-09-18 09:09:40 +08:00   ❤️ 1
卧龙凤雏, 一言不合重启机器
maemolee
    25
maemolee  
   2023-09-18 09:30:50 +08:00   ❤️ 14
经典的:重启逝世
salmon5
    26
salmon5  
   2023-09-18 09:33:18 +08:00
锅 5:5 开
Masoud2023
    27
Masoud2023  
   2023-09-18 09:34:46 +08:00
瞎猫碰到死耗子
zhumengyang
    28
zhumengyang  
   2023-09-18 09:34:56 +08:00
卧龙三米之内必有凤雏
daimiaopeng
    29
daimiaopeng  
   2023-09-18 09:36:24 +08:00
牛逼
crayygy
    30
crayygy  
   2023-09-18 09:40:38 +08:00
有望成为近期最佳

不过桌面上那么大一个 Install Ubuntu 一直没人看到么...
Richardhtw
    31
Richardhtw  
   2023-09-18 09:41:15 +08:00
卧龙凤雏.jpg
collery
    32
collery  
   2023-09-18 09:41:27 +08:00
重启不是正常操作么 嘿嘿嘿
wangybsyuct
    33
wangybsyuct  
   2023-09-18 09:44:30 +08:00
1 、桌面上有个 install Ubuntu 的图标。
2 、/ monunt 点只有 2G ,文件系统名叫/cow,分区非常多,比正常的多太多了
3 、没有编译环境、什么环境都没有。运营的环境至少安装个 gcc 吧。
这些都是异常情况。
TORYOI
    34
TORYOI  
   2023-09-18 09:47:10 +08:00
牛逼
Felldeadbird
    35
Felldeadbird  
   2023-09-18 09:50:35 +08:00
1. 对方运维主要责任。机器安装系统给个 live cd 环境?
2. 己方没有做好异地备份,次责。
3. 谨慎重启操作系统,系统运行久了,日常部署多了,没做部署日志的话。一旦重启容易遗忘一些重要配置。
darksword21
    36
darksword21  
   2023-09-18 09:50:40 +08:00
这竟然还能跑 8 个月?
goodryb
    37
goodryb  
   2023-09-18 09:51:44 +08:00   ❤️ 2
live CD:从没想过有一点我还能上生产跑业务,满足了
wonderfulcxm
    38
wonderfulcxm  
   2023-09-18 09:55:13 +08:00 via iPhone
好笑归好笑,不过我查了一下,有些 live cd 的确可以把数据持久化的
defunct9
    39
defunct9  
   2023-09-18 09:56:13 +08:00   ❤️ 1
高,实在是高!
hokori
    40
hokori  
   2023-09-18 09:57:08 +08:00
live CD 跑起来了
EEEEx
    41
EEEEx  
   2023-09-18 09:57:16 +08:00
反正主锅不是你
chenliangngng
    42
chenliangngng  
   2023-09-18 09:59:41 +08:00
8 个月,这要寄啊
Sokia
    43
Sokia  
   2023-09-18 09:59:47 +08:00
过于逆天了 发给运维同事了
noErr
    44
noErr  
   2023-09-18 10:03:04 +08:00
@wonderfulcxm 看起来已经重启啦,,
oneisall8955
    45
oneisall8955  
   2023-09-18 10:04:05 +08:00 via Android
Linux 真稳😆
Jreen
    46
Jreen  
   2023-09-18 10:06:04 +08:00
这个经历真够离谱啊……
zhangyq008
    47
zhangyq008  
   2023-09-18 10:06:37 +08:00
看你们的甩锅技术了。。。
qiyilai
    48
qiyilai  
   2023-09-18 10:07:52 +08:00
成功缓解了周一上班的不适
alsas
    49
alsas  
   2023-09-18 10:13:25 +08:00
卧龙凤雏
yolee599
    50
yolee599  
   2023-09-18 10:14:48 +08:00
Live CD 运行 8 个月不挂也是真的牛批!
excitedXXX
    51
excitedXXX  
   2023-09-18 10:17:38 +08:00   ❤️ 3
live CD 遗言:这辈子值了。
oblivion
    52
oblivion  
OP
   2023-09-18 10:17:50 +08:00
@lrh3321 #2 @roundgis #17 @yfixx #21 某种意义上来说...数据确实不算重要,年后就忘了这件事了,甚至早上还想了几分钟什么时候有这个系统了

@cmdOptionKana #5 @msg7086 #14 正常我们是做了备份策略的,只不过对方在内网用,没公网,临近春节找不到人开个 minio/ftp/nfs 之类的服务给我们做备份用,年后这事也忘记了,一直没出过问题

@davidyin #9 是对方运维强烈要求带桌面,正常我们也就 cli 部署了

@Routeros #10 是啊,真稳,Live CD 跑那么久都没出问题

@wuzhewuyou #15 @des #16 @devopsdogdog #18 组里另一个同事昨天晚上去搞的,他发现磁盘没分区没挂载,也没想到居然是在 Live CD ,手动分区挂载准备迁移数据发现挂不上,就直接给重启了

@lloovve #3 @k9982874 #12 @crayygy #30 @wangxiaoaer #33 @darksword21 #36 @goodryb #37 当时临近春节,对方各种催他们想早点下班,第一次在物理机装带桌面的部署,我也没在意桌面的 Install Ubuntu 图标,关键是呢,一切都太顺利了,内网连接正常,usb 共享了 4G 网络进去,也正常上网,apt 更新,装各种依赖,dotnet restore ,npm install ,docker run ,全程一次性完成没出问题,万万没想到这是在 Live CD ,本想春节后加个副本和协调个备份服务的,这事给忘记了
msg7086
    53
msg7086  
   2023-09-18 10:20:01 +08:00   ❤️ 1
@oblivion #51 apt 更新完竟然没重启这是我没想到的。
一般至少要重启一次,测试一下 docker 在重启后有没有自动起来吧。
liuhongbind
    54
liuhongbind  
   2023-09-18 10:20:19 +08:00
这能运行 8 个月,也是 6
assiadamo
    55
assiadamo  
   2023-09-18 10:20:42 +08:00   ❤️ 1
今天的好心情来源于此
Raint571
    56
Raint571  
   2023-09-18 10:21:41 +08:00   ❤️ 1
忍不住大笑了起来
ysc3839
    57
ysc3839  
   2023-09-18 10:24:57 +08:00 via Android
楼主能否透露一下后续情况吗?是否因此受到处罚啥的?
idblife
    58
idblife  
   2023-09-18 10:29:25 +08:00
忍不住笑了。。。
可以列入奇葩故障排行榜
defunct9
    59
defunct9  
   2023-09-18 10:32:25 +08:00
必然还是你的锅,Live 系统 df 一把一下就能看出来。
Basstorm
    60
Basstorm  
   2023-09-18 10:35:10 +08:00
真的牛逼,整笑了
rocksolid
    61
rocksolid  
   2023-09-18 10:37:27 +08:00
客户想着咱尾款付了呀,你给我弄个不定时炸弹
mark2025
    62
mark2025  
   2023-09-18 10:40:18 +08:00
装完系统,我一般会重启两次服务器~
mark2025
    63
mark2025  
   2023-09-18 10:41:56 +08:00
“组里另一个同事昨天晚上去搞的,他发现磁盘没分区没挂载,也没想到居然是在 Live CD ,手动分区挂载准备迁移数据发现挂不上,就直接给重启了”

可以抓住这点:运行没问题,重启有责任 哈哈
duke807
    64
duke807  
   2023-09-18 10:48:24 +08:00 via Android
自爆卡车
Mithril
    65
Mithril  
   2023-09-18 10:48:39 +08:00   ❤️ 6
你这个贴子,和首页那个 2000 块要破解微软邮箱验证码方案的,可以承包我这一周的笑点。。。
NessajCN
    66
NessajCN  
   2023-09-18 10:49:45 +08:00
「哪里能随便重启生产环境的啊!你看被你搞崩了吧!」
甩锅完毕
Eytoyes
    67
Eytoyes  
   2023-09-18 11:09:28 +08:00
就是赛博华佗来了也是于事无补,除了 卧槽 之外想不出别的词了
guanzhangzhang
    68
guanzhangzhang  
   2023-09-18 11:09:47 +08:00
ubuntu 的 live cd 我记得桌面有个 install 的图标的👀
xixibb
    69
xixibb  
   2023-09-18 11:20:20 +08:00
@oblivion #52 真的佩服你,你是咋这么细心一个一个的回复这么多人的 ?上上下下的找好麻烦啊。
uiosun
    70
uiosun  
   2023-09-18 11:21:14 +08:00
@lloovve 至少对半开,不可能全怪楼主

——如果贵司根本不存在"数据备份"的概念,主打的就是一个“不死万万年,人死鸟朝天”,那也是相当硬核的。
twofox
    71
twofox  
   2023-09-18 11:22:38 +08:00
笑死,绝了
smallYear
    72
smallYear  
   2023-09-18 11:24:52 +08:00
一般人还真想不到部署的应用能跑在 live cd 下
Ally
    73
Ally  
   2023-09-18 11:29:42 +08:00
太强了,live cd 环境竟然这么稳,能跑 8 个月
kenvix
    74
kenvix  
   2023-09-18 11:31:31 +08:00
对方运维背大锅,让装系统装哪去了?
wangkun025
    75
wangkun025  
   2023-09-18 11:44:47 +08:00 via Android
我不信
wudi77
    76
wudi77  
   2023-09-18 11:46:03 +08:00
今日最佳帖。
8Bobo8
    77
8Bobo8  
   2023-09-18 11:49:35 +08:00 via Android
我还是感觉这个 Live CD 太强了,整整八个月。。
lscho
    78
lscho  
   2023-09-18 11:52:29 +08:00 via iPhone
过于离谱。。。。我做梦都想不到这样的场景
ucando
    79
ucando  
   2023-09-18 11:53:27 +08:00
这个 docker run 也挺魔性, 竟然不用挂载磁盘, 说明确实没太多数据需要永久保存的
docx
    80
docx  
   2023-09-18 11:59:22 +08:00 via iPhone
同情,看看后面怎么处理吧
wondering
    81
wondering  
   2023-09-18 12:00:13 +08:00 via Android
强,这没出事的话,磁盘够的话,是不是还能运行个一年🐶
JoeoooLAI
    82
JoeoooLAI  
   2023-09-18 12:01:55 +08:00
。。。这个也太。。。。
oblivion
    83
oblivion  
OP
   2023-09-18 12:03:31 +08:00   ❤️ 1
@LokiSharp #1 @cmdOptionKana #5 @msg7086 #14 @yfixx #21 @Felldeadbird #35 @zhangyq008 #47 @ysc3839 #57 @defunct9 #59 @rocksolid #61 @mark2025 #62 @NessajCN #66 @kenvix #74

更新最新情况:

关于甩锅情况:早上接到电话就已经先按 @NessajCN #66 锅先甩给同事了(开个玩笑),已经重新装好系统部署好在用了,
关于背锅情况:对方运维也忘记具体情况了,暂时没人背锅(对方计划甩锅 SSD 故障),暂时也不需要背锅,
关于系统情况:这一套是几家运营商都在用的非关键系统,本次出问题的是其中一家运营商的某地某公司,主要是用于管理外包工单和调用接口发短信通知,通讯录,改派,通过其他系统接口关联资源之类的功能,历史数据用途不大,当天用完数据就没什么用了,
关于数据情况:本质上是 Excel 导入导出管理系统,网管电脑也没删下载目录,要恢复数据的话通宵几天还是能恢复的,
关于尾款情况:对方一次性全付,没尾款
关于想不通的地方:为什么啊为什么啊,为什么能运行 8 个月都没出问题,就普通办公区临时机柜,没有 UPS ,没多路市电,没挂硬盘,还能稳定运行这么久
ayase252
    84
ayase252  
   2023-09-18 12:04:56 +08:00 via iPhone   ❤️ 1
调机上正线(
oblivion
    85
oblivion  
OP
   2023-09-18 12:08:35 +08:00
@ucando #79 是有数据库和 redis 的,想不通磁盘满了为什么还能正常工作
@docx #80 沟通好了,非关键系统没什么需要处理的,对方运维讲实在不行甩锅 SSD 故障
@wondering #81 可能磁盘早满了吧,昨天是需要加个功能更新部署,不去动说不定明年都没发现
flyqie
    86
flyqie  
   2023-09-18 12:09:28 +08:00
什么是牛逼,这就是牛逼。

话说运维强烈要求带桌面是什么操作。。
IvanLi127
    87
IvanLi127  
   2023-09-18 12:12:11 +08:00 via Android
部署完项目居然没重启一次试试服务能不能自启🤣
果然是能跑就别动,动一下都可能会以意想不到的方式垮掉
ysc3839
    88
ysc3839  
   2023-09-18 12:19:39 +08:00 via Android   ❤️ 1
@oblivion LiveCD 应该是 overlayfs 吧,叠加层估计在内存里,所以内存足够大的话是很稳定的
ysc3839
    89
ysc3839  
   2023-09-18 12:20:41 +08:00 via Android
@oblivion 如果你想问为什么能长期不重启,我家里的路由器也可以呀
guo4224
    90
guo4224  
   2023-09-18 12:34:18 +08:00
@LokiSharp 甩锅才是最重要的
maskerTUI
    91
maskerTUI  
   2023-09-18 12:35:42 +08:00
过于传奇
8675bc86
    92
8675bc86  
   2023-09-18 12:49:22 +08:00
一群神人……
anubis482
    93
anubis482  
   2023-09-18 13:04:46 +08:00   ❤️ 1
@ayase252 何止调机上正线,简直 tm 是调机跑图定长交路
weeei
    94
weeei  
   2023-09-18 13:11:02 +08:00
「运维要求带桌面安装」,就这一点,运维就得背锅。
ZH9c418
    95
ZH9c418  
   2023-09-18 13:12:40 +08:00
就这么跑了八个月简直是人间奇迹
uselessVisitor
    96
uselessVisitor  
   2023-09-18 13:14:25 +08:00
Linux 真稳定啊
zhlxsh
    97
zhlxsh  
   2023-09-18 13:17:44 +08:00 via iPhone   ❤️ 1
@ysc3839 #88 而且内存带 ecc 小问题能自己纠错。去掉了硬盘故障率更低了。系统也确实稳定。业务量又不是很大,造就了传奇。唯一的缺点就是数据没了,反正不重要😂
lc4t
    98
lc4t  
   2023-09-18 13:26:27 +08:00
今日最佳!!!
roundgis
    99
roundgis  
   2023-09-18 13:41:44 +08:00 via Android
@oblivion 這是 ubuntu 的活廣告 不錯
encro
    100
encro  
   2023-09-18 13:46:53 +08:00
啊,你自己愿意背锅,,,怎知道 cd 是什么是否放入的呢。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3697 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 04:24 · PVG 12:24 · LAX 20:24 · JFK 23:24
Developed with CodeLauncher
♥ Do have faith in what you're doing.