V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
AllOfMe
V2EX  ›  程序员

你司有没有过运维事故?

  •  
  •   AllOfMe · 2018-08-08 13:45:44 +08:00 via Android · 18180 次点击
    这是一个创建于 2327 天前的主题,其中的信息可能已经有所发展或是发生改变。
    删库,update 没加 where,rm rf /,误删 glibc 等等运维事故,小至两三人的创业公司,大至如最近的腾讯云磁盘事故,都有可能发生。
    你们公司有没有过类似的事故?这些犯错的员工下场一般是怎么样的?
    154 条回复    2018-10-02 19:34:08 +08:00
    1  2  
    mossss21
        1
    mossss21  
       2018-08-08 13:56:28 +08:00   ❤️ 6
    一百人不到的游戏公司。以前一位运维手滑导致活动提前结束。后来被开了。
    现在做法是禁用 rm,改用 mv 到指定路径下,另有脚本定时清里面的文件。
    jrient
        2
    jrient  
       2018-08-08 14:03:40 +08:00   ❤️ 1
    @mossss21 还好我以前呆的公司比较好 不然已经被开了十几次了
    virus94
        3
    virus94  
       2018-08-08 14:04:45 +08:00
    - - 手滑删过库 不过还好操作前备份了一下......
    caaat
        4
    caaat  
       2018-08-08 14:10:08 +08:00
    就是删库呗,不过还好是开启日志归档的 db2
    funcman
        5
    funcman  
       2018-08-08 14:11:31 +08:00   ❤️ 3
    曾经有个 bug 跑了起码半年,陆续删掉的数据可能有几千万条。这个事我可以吹好几年哈哈。每次看到大数据我就想到两件搞笑事,一件是这个,另一件就是数字够大就是大数据。哈哈哈哈哈哈哈哈哈。
    ETiV
        6
    ETiV  
       2018-08-08 14:17:56 +08:00 via iPhone   ❤️ 40
    直接物理接触,格了别人的服务器……

    那还是在 2010 年,当时在的小公司,项目上线,跟别人借的服务器。

    我们去机房,机房工作人员随手指了两台,说这俩给你们用的。

    然后我们开始格盘装系统。装完系统,机房那哥们说,两台中有一台指错了…
    Showfom
        7
    Showfom  
       2018-08-08 14:19:45 +08:00 via iPhone
    @ETiV 然后怎么处理的
    chenhonzhou
        8
    chenhonzhou  
       2018-08-08 14:25:48 +08:00 via Android
    @ETiV 悲惨了
    lingo
        9
    lingo  
       2018-08-08 14:26:48 +08:00   ❤️ 1
    手滑删过公司的小项目源码。反编译回来了。
    shadownet
        10
    shadownet  
       2018-08-08 14:28:39 +08:00
    删库,经历过 1,2 次吧
    7654
        11
    7654  
       2018-08-08 14:29:03 +08:00
    update …… where 1=1
    内部系统 web 运行缓慢半小时
    imaning
        12
    imaning  
       2018-08-08 14:39:38 +08:00   ❤️ 3
    我曾经干过,rm -rf / home/...... 多个空格,悲剧了。
    niuoh
        13
    niuoh  
       2018-08-08 14:44:05 +08:00   ❤️ 3
    我执行过 chmod 777 / -R
    SoulSleep
        14
    SoulSleep  
       2018-08-08 14:44:13 +08:00   ❤️ 1
    测试数据库服务器 rm -rf /
    ---找监控,甩锅
    oracle 生产库业务表 update xxx set dddd=1 where 1=1
    ---找磁带,恢复 48 小时
    生产存储固件挂掉....宕机 2 周
    ---索赔几百万...吧
    mysql 生产库业务表 update xxx set dddd=1 where 1=1
    ---找到 1 小时前数据,还原掉,并通知业务人员重新操作
    生产应用宿主机宕机
    ----没啥,找人甩锅呗

    别的记不得了,反正我觉得自己心脏倍儿好
    opengps
        15
    opengps  
       2018-08-08 14:46:40 +08:00
    这么说吧,小心谨慎的运维,都是干过这类问题的,我当年是写 sql 眼花,清空了一个备注列,幸好纯内部系统,丢了就丢了
    Felldeadbird
        16
    Felldeadbird  
       2018-08-08 14:51:57 +08:00
    @ETiV 后续赔钱了吗?
    liuzhedash
        17
    liuzhedash  
       2018-08-08 14:54:03 +08:00   ❤️ 18
    前司到处都是:
    1、一觉起来发现数据库因为连接错误过多关闭连接了,所有业务停摆几小时
    2、php-fpm 内存泄漏,终于在某天中午占满了所有内存导致业务停摆几小时
    3、被当成 ddos 肉鸡,随机时间向外打流量,所有业务停摆 48 小时
    4、cron 触发的系统邮件文件占满了所有 inode,无法创建任何新文件,导致所有业务停摆几小时
    5、删错数据、删错订单、退错款、付了款订单失败、App 推送点不开、App 推送不到达都是家常便饭,不说了
    6、景区保安把手持验票机( Android 系统)热点打开,3 天耗完 4GB 流量
    7、短信通道被 ddos,几百条订单短信发不出去,节假日客服电话被打爆,我的电话被客服打爆
    8、工程师把生产库当测试库调整 sql,join 死循环导致 mysql 吃 100%cpu,好在站库分离影响不大
    9、推送的 react native 热更新把热更新检查代码注释了,不得不更新原生版本
    10、合作方在业务高峰前夜切换接口实现,三天内囤积了 5w 左右的订单无法验证状态(是否使用),老板用从未有过的认真表情问我这 5w 到底会落实成多少损失,好在实际上没多少损失

    终于凑够 10 条了,其实 v2 上大佬很多,说话也很好听,技术都很高明,但是实际上大部分的小公司真的只有我这样的一个技术头目带几个兄弟做研发,没有什么精力去做很完善的运维,维持 bug 不比 feature 多就已经竭尽全力了。
    希望大家负责的项目都能稳定运行,天长地久。
    Phariel
        18
    Phariel  
       2018-08-08 14:55:49 +08:00 via iPhone   ❤️ 2
    我老东家遇到过 有一台 build server 上面的同一时间通电的同一批次的三块 SSD 在同一时间一起报废 幸好不是生产服务器 吓出一身冷汗
    xiaoheshang
        19
    xiaoheshang  
       2018-08-08 14:55:53 +08:00
    生产服务器被开发 rm -fr /* ,过了好几分钟发现不对劲取消,除了挽回几十个 G 的日志其他数据全丢了。
    xiaoheshang
        20
    xiaoheshang  
       2018-08-08 14:57:41 +08:00   ❤️ 5
    RAID1 两块硬盘坏了一块,运维热插拔把正常的拿下来了。。。。。
    beaconfire
        21
    beaconfire  
       2018-08-08 15:01:10 +08:00
    @Phariel 你这个可以去买彩票了
    neoska
        22
    neoska  
       2018-08-08 15:03:17 +08:00
    @xiaoheshang 略 dio,看着黄灯闪然后把绿灯的盘拔下来了??
    runnerlee
        23
    runnerlee  
       2018-08-08 15:05:54 +08:00
    两年前小团队只有十几人, 下午上班中查生产数据库第一条执行完执行第二条返回了 'no database selected', 仔细一看 db 不见了.

    然后靠 binlog 恢复了, 事故原因是: 不知道怎么了就不见了 (技术副总说的).

    还有就是副总深夜没告知手下的人自己就通过 ftp 修改了生产环境的代码, 把数据库连到测试库了, 早上才发现
    t6attack
        24
    t6attack  
       2018-08-08 15:06:12 +08:00   ❤️ 1
    自己的数据。移动硬盘上有个目录“网站数据”保存着我做过的所有网站源码及数据。一个网站一个目录。有些是自己开发的,有些是用 cms 做的。最早的网站是中学时做的校园论坛,程序是 dvbbs7.0sp2。另外还有两个校内(人人)api 做的 sns 插件。总共二十多个目录。
    在对三个硬盘进行数据归类整理时,这个最重要的目录被我弄没了。我也不知道是怎么弄没的,反正是找不到了,用 finadata 对硬盘扫了一遍也没找到。应该是在频繁的大文件拷贝过程中,那片区域被复写过了。
    然后赶紧对仍在线上的网站进行备份,重建了一个“网站数据”目录。只剩 5 个了。感觉自己的人生被扣掉了一块。
    bluesyz
        25
    bluesyz  
       2018-08-08 15:07:09 +08:00
    游戏数据库少执行了一句,然后延长了更新时间。
    Phariel
        26
    Phariel  
       2018-08-08 15:08:34 +08:00 via iPhone
    @beaconfire 其实想了想也是必然 同一批次的主控寿命应该是一致的 只能说精准的制造工艺 到点就坏 非常精确。。。
    lucifer9
        27
    lucifer9  
       2018-08-08 15:10:02 +08:00
    误删文件肯定事少不了的
    最多就是想办法恢复,然后赔偿呗
    不过很久之前远程操作某省联通靠近核心的一台防火墙时候脑抽先写了个 deny all
    当然后来打电话找机房同事给解决了,最后是半小时左右该省联通用户都没法上网
    还被腾讯给投诉了...
    AllOfMe
        28
    AllOfMe  
    OP
       2018-08-08 15:16:05 +08:00
    @SoulSleep 其他的都能理解,但是为啥会有个索赔几百万呢?让你一个人赔吗?
    yjxjn
        29
    yjxjn  
       2018-08-08 15:19:48 +08:00   ❤️ 1
    有,粘贴 update 语句的时候,由于 word 里面折行问题,where 条件没有,执行完发现卧槽,完了!!! 1000W 数据
    但是所幸看到右下角网络感叹号!其实只有一部分被 update 了,其他都还好。。。
    infun
        30
    infun  
       2018-08-08 15:20:25 +08:00 via iPhone   ❤️ 2
    携程 5.28 听过吗
    xiaoxin8888
        31
    xiaoxin8888  
       2018-08-08 15:20:37 +08:00   ❤️ 1
    我把一个库线上的数据导到测试环境, 结果和其他库信息对不上了, 我这面没什么影响. 后台炸了.
    那天感觉后背一直有凉风吹过....
    jusalun
        32
    jusalun  
       2018-08-08 15:21:53 +08:00
    有个小弟迁数据,手动迁出问题丢了 20 分钟数据,让他做成作业自动跑不听,非自己手动做,手动做还不是新建表 rename 表名,居然是傻了吧唧的手动复制数据后再删除原表数据,导致迁移耗时间进来的日志数据不但没迁移走,还被他给删了,帮他擦屁股,擦的恶心死我了
    tt67wq
        33
    tt67wq  
       2018-08-08 15:24:57 +08:00
    公司一个老姐生产库写 update 没写 where。。。。。
    裸奔的数据库
    后来靠倒着跑一遍 binlog 回来的,老姐吓得第二天请了病假
    e8c47a0d
        34
    e8c47a0d  
       2018-08-08 15:29:47 +08:00   ❤️ 23
    有一次 ssh 进去后发现 db 整个没了,花了 n 个小时把备份灌回来,然后检查期间的日志自己一条一条手工补上数据,就这样一个下午过去了。晚上,发现,自己登的是另一台机子,真机好好的。
    jtsai
        35
    jtsai  
       2018-08-08 15:32:19 +08:00   ❤️ 7
    导出数据库,执行成导入,执行完以为导出成功,删除旧备份。真正实现从删库到跑路。
    ghiei9101
        36
    ghiei9101  
       2018-08-08 15:33:57 +08:00
    @jrient 日常删库?
    zc0000
        37
    zc0000  
       2018-08-08 15:45:20 +08:00
    @infun 我现在在凌空 SOHO17 号楼看着这条。。
    zc0000
        38
    zc0000  
       2018-08-08 15:47:40 +08:00
    @e8c47a0d 哈哈哈哈,牛逼
    supersadmin
        39
    supersadmin  
       2018-08-08 15:48:18 +08:00
    写过一个 bug,因为这个 bug 公司赚了 1 万+,我被罚款 100.
    SoulSleep
        40
    SoulSleep  
       2018-08-08 15:49:46 +08:00   ❤️ 1
    @AllOfMe #28 哈哈,我是甲方,索赔乙方,因为是他们提供服务
    dingjssc
        41
    dingjssc  
       2018-08-08 15:59:03 +08:00
    @lucifer9 手动点赞,我也干过同样的事情。
    whileFalse
        42
    whileFalse  
       2018-08-08 16:01:54 +08:00
    @supersadmin 能详细说说么
    tonzeng
        43
    tonzeng  
       2018-08-08 16:03:31 +08:00
    楼上大部分甲方大爷干过的事情,我都擦屁股。
    lucifer9
        44
    lucifer9  
       2018-08-08 16:08:28 +08:00   ❤️ 1
    @dingjssc #41 还听同事说过一个某外派大厂的,不知真假。说是当年西非某国用的该厂设备,全套的那种。某天派驻过去维护的工程师脑抽,把国防部的网络搞断了大半天。当时该国还在内战中,也就是当时反政府军没啥行动,要不这哥们儿估计就成当地民族英雄了。
    chnhyg
        45
    chnhyg  
       2018-08-08 16:10:05 +08:00   ❤️ 14
    说个以前的,

    我们的数据库有多重备份,备份系统挂了近一年,也是需要恢复数据库的时候才发现的这个事,所以最近一次的有效备份文件是一年前的。

    当天不小心误删了数据库,后果是什么呢?一家即将上市的集团公司近一年的生产数据全没了。

    万幸的是,最后发现一个离职的同事很久很久以前写的一个备份系统还在默默地运行着,最近一次的有效备份文件是一天前的。

    ……
    AllOfMe
        46
    AllOfMe  
    OP
       2018-08-08 16:10:28 +08:00
    @SoulSleep 厉害
    artandlol
        47
    artandlol  
       2018-08-08 16:17:18 +08:00
    @chnhyg 你们一定要去感谢下那位前同事
    colorfulberry
        48
    colorfulberry  
       2018-08-08 16:18:53 +08:00
    1. rm -rf 搞过一次,文件恢复了一天,小公司,只恢复了 80%。 其他的也不了了之
    2. update 不带 where,最近出现过一次,其实也就影响了 10 几个人。
    xderam
        49
    xderam  
       2018-08-08 16:20:15 +08:00
    @liuzhedash 2 3 4 7 都遇到过,其实大厂子也有这些问题。(逃
    houzhimeng
        50
    houzhimeng  
       2018-08-08 16:22:05 +08:00
    现在就担心阿里也搞这么一出就完蛋了,买他那个灾备也不安全啊。
    artandlol
        51
    artandlol  
       2018-08-08 16:22:49 +08:00
    前几天在 k8s 集群里面执行了下,一个 pod 挂掉了就自动重建了,有其他 pod 在访问没任何影响
    Hucai
        52
    Hucai  
       2018-08-08 16:26:46 +08:00
    @chnhyg #45 不给那个离职的同事来一笔奖金说不过去吧
    shiny
        53
    shiny  
       2018-08-08 16:29:31 +08:00   ❤️ 2
    印象比较深有两条:
    1. 32 位系统上 ip2long 的结果去存字段类型为 int,SQL 失败后数据都没存下来。因为比较隐蔽,大半年后才发现。代价:每条记录都价值上千元。
    表面原因:不要用 32 位系统。
    深入原因:生产环境上应该要捕获并认真对待每一条错误。后来上了 sentry 此类问题就可以规避了。

    2. 凌晨迁移服务器时候备份的 sql 被错误 echo 清空了,然后没有任何备份。
    表面原因:备份应该是定期且能够验证的。现在用好云服务的自带功能(比如快照和自动快照策略)规避绝大多数的风险了,当年没这玩意儿。
    深入原因:疲乏的时候谨慎操作生产环境服务器,想好每一条操作,认真评估风险,防范后再去操作,可参考航空界的飞行检查单。
    shiny
        54
    shiny  
       2018-08-08 16:30:36 +08:00   ❤️ 1
    补充上面第一条:32 位系统下 ip2long 出现负值,但数据库字段类型为 unsigned
    Hucai
        55
    Hucai  
       2018-08-08 16:31:39 +08:00
    innode 类型数据表,启动报错,删了 ibdata1 启动正常,后来数据就丢了,再后来就知道了 innode 和 myisam 的区别
    boris1993
        56
    boris1993  
       2018-08-08 16:33:29 +08:00 via Android
    机房没上 UPS,终于某次园区停电之后烧了 3 块服务器主板
    后续是公司买了俩 UPS 扔机房里面。因为定期备份失效,工作进度回滚 3 个月。
    我?我是开发部门,负责看戏的。
    dongisking
        57
    dongisking  
       2018-08-08 16:34:19 +08:00 via Android
    数据库里面有个字段叫 deleted_at,如果不为空就是软删除了,有一天我把测试数据都硬删了,然后同事说登陆不到了。我看了下代码是用的 is_del 字段,被坑死了。
    cstj0505
        58
    cstj0505  
       2018-08-08 16:34:47 +08:00
    某天晚上生产数据库突然被内核杀掉了三次,算吗
    shiny
        59
    shiny  
       2018-08-08 16:34:59 +08:00   ❤️ 4
    遇到问题不可怕,可怕的是不去分析问题,日后规避。
    遇到问题要问五个为什么 https://zh.wikipedia.org/wiki/%E4%BA%94%E4%B8%AA%E4%B8%BA%E4%BB%80%E4%B9%88
    找到深层次原因才能更好规避问题,也是技术人员真正宝贵的实践经验,而不仅仅是会何种语言,CRUD 工作经验几年。
    pyufftj
        60
    pyufftj  
       2018-08-08 16:38:36 +08:00
    @niuoh 我以前在黑苹果上执行了和你一模一样的命令,后来就重装了系统。。
    mhycy
        61
    mhycy  
       2018-08-08 16:42:11 +08:00
    拔掉一个 R6 阵列的 3 个盘......
    ESXI 的母机操作系统挂了.....
    julyclyde
        62
    julyclyde  
       2018-08-08 16:42:12 +08:00
    glibc 还能误删?
    Ace77
        63
    Ace77  
       2018-08-08 16:42:39 +08:00
    看着各位大佬的事故 记笔记记笔记! 看着就怕 哈哈
    tiancaiyong
        64
    tiancaiyong  
       2018-08-08 16:42:47 +08:00
    @chnhyg 简直不要太厉害
    julyclyde
        65
    julyclyde  
       2018-08-08 16:44:39 +08:00
    @shiny 我遇到过 sentry 被压垮的情况,发进去的内容全在队列里,越来越长
    AllOfMe
        66
    AllOfMe  
    OP
       2018-08-08 16:49:05 +08:00
    @julyclyde 怎么说呢?可能一些开发人员不熟悉 rpm,被依赖折腾累了,不小心执行 rpm -e --nodeps --force 就把 glibc 卸载了。。这个情况我以前遇到过,唉,头疼
    AllOfMe
        67
    AllOfMe  
    OP
       2018-08-08 16:50:06 +08:00
    @julyclyde 一般出现在 centos 这种内核 2.6,而且 glibc 又很老的情况下,误删 glibc 还是比较危险的操作
    artandlol
        68
    artandlol  
       2018-08-08 16:50:23 +08:00
    @julyclyde 一般都是安装一些软件,顺带升级导致主服务不兼容挂掉
    qiuqiuer
        69
    qiuqiuer  
       2018-08-08 16:51:30 +08:00 via Android
    楼上的都被忽悠了,这是说运维的错,不是疼讯的错,感觉疼讯换产品经理了
    julyclyde
        70
    julyclyde  
       2018-08-08 16:51:46 +08:00
    @AllOfMe 用了不同大版本的 repo 吧?
    chinvo
        71
    chinvo  
       2018-08-08 16:57:08 +08:00
    rm -rf 多打一个空格;
    导数据库之后删除结果发现导出不完整;
    不知道哪个手贱的给人演示“ RAID 的安全性”把一个最小规模的 RAID5 0 号盘拔掉换了位置没 rebuild,后来 2 号盘挂了;
    热拉伸脚本写错了拉伸出去的都是空镜像直到自动压缩脚本执行的时候删掉正常容器才发现。

    然后说一个道听途说的大事故:

    因为机房 UPS 设计的太“坚挺”,每次停电全机房能在空调系统离线的情况下工作数小时,长期过热三层磁盘的中间一层磁盘几乎全部报废,存储控制器系统内部报警没人看到,前面板指示灯无异常。

    终于在一次未提前通知的停电事件中整个存储挂掉,连带控制器系统也挂掉。

    替换了几个批次的硬盘终于找到控制器识别的批次,用借来的控制器(型号老旧经销商和厂家都没有存货)将数据落到最底层,提心吊胆地启动之后惊心动魄地抢救数据,完整克隆到新的存储里面才算完。
    AllOfMe
        72
    AllOfMe  
    OP
       2018-08-08 16:57:09 +08:00
    @julyclyde 主要也不是版本和 repo 的问题,是一些软件要求 glibc 的版本当前不符合。在使用 rpm 的强制卸载太任性,对 rpm 操作和 glibc 这一重要底层包被卸载危险的认识还不够。如果你卸载了 glibc,会导致只有 cd 和 pwd 能有,所有在运行进程全部不正常。
    foxni
        73
    foxni  
       2018-08-08 16:57:52 +08:00
    做过镜像的根盘坏了一块,给厂商报修,当天就换了块新的。可是在自动复制过程中另外一块也挂了,而镜像数据的复制却还没完成,最终系统挂了。。。。(还好是备机,不过这概率也是没谁了,记忆很深)
    ckzx
        74
    ckzx  
       2018-08-08 16:59:35 +08:00   ❤️ 1
    昨天群里刚发生格错服务器了。把生产库给格了。并且备份还在这台机器上,哈哈。
    murmur
        75
    murmur  
       2018-08-08 17:02:22 +08:00   ❤️ 1
    实习生删表 紧急下线功能 挂维护通知 联系运维还原磁带备份 新数据建表再导 折腾一上午 还好内部系统
    artandlol
        76
    artandlol  
       2018-08-08 17:03:31 +08:00
    使用 ansible 时调用了不知什么情况调用了一条之前执行过的命令,导致生产环境崩了
    ETiV
        77
    ETiV  
       2018-08-08 17:07:09 +08:00 via iPhone   ❤️ 1
    @Showfom
    @Felldeadbird

    没后续了…
    机房在宁波,当晚我们就回上海了

    责任不在我们,所以我们肯定是没赔钱
    不知道机房小哥咋样……
    junphe
        78
    junphe  
       2018-08-08 17:08:42 +08:00   ❤️ 2
    线上服务器删除当前目录的时候少加了个点结果就这样了“ rm -rf /”
    一个小目录半天没反映,立刻中止了,吓出一身冷汗
    幸好核心文件没有被删除
    现在登录线上服务器操作都有点手抖
    :(
    xiaoheshang
        79
    xiaoheshang  
       2018-08-08 17:16:47 +08:00
    @neoska 是的,你没看错,就是这么任性。其实 raid 没掉级,只是报警了,最后导致谁也不敢动服务器,把业务紧急迁移了。
    InternetExplorer
        80
    InternetExplorer  
       2018-08-08 17:16:50 +08:00
    @foxni #73 这种几率其实很高的,同批次硬盘的寿命都差不多
    paparika
        81
    paparika  
       2018-08-08 17:26:20 +08:00
    运维同学都是有故事的,开发一比弱爆了
    wangcansun
        82
    wangcansun  
       2018-08-08 17:26:28 +08:00
    @mossss21 这个方法好!!!!
    jarnanchen
        83
    jarnanchen  
       2018-08-08 17:46:22 +08:00
    想起前东家的一件事,有个付费接口,好像是银行卡还是身份证的认证,调用一次多少钱的。
    结果我们跑测试的同志,把几十万条数据跑起来了。跑了几个小时候才发现。
    k9982874
        84
    k9982874  
       2018-08-08 17:49:54 +08:00
    我一直有一个习惯执行`rm`之前先顿一秒看下命令,不是故意的完全是神经反射,别问我怎么获得的这个技能。

    另外最近脑抽把 git 仓库里的 development 远程分支删了,幸好有在操作之前有先把远程 pull 到本地的习惯,这个技能也别问我是怎么获得的。
    daigouspy
        85
    daigouspy  
       2018-08-08 18:01:39 +08:00 via Android
    @AllOfMe 这么重要的东西就应该放内核里,怎么可能让删的呢?
    Mush
        86
    Mush  
       2018-08-08 18:05:48 +08:00
    第一份工作的时候, 老大把线上服务器(web)删了.
    Ansen
        87
    Ansen  
       2018-08-08 18:12:09 +08:00   ❤️ 2
    一不小心把线上游戏服务器给停了几百台,停到一半发现了,赶紧 ctrl+c, 但基本停完了,当时想的是 Python+salt 效率好高,2 秒钟发送了几百次停服指令
    AllOfMe
        88
    AllOfMe  
    OP
       2018-08-08 18:16:30 +08:00 via Android
    @daigouspy 无法完全避免,除非做用户权限管理,但是大多数情况都是 root 直接上的。。。glibc 我这辈子是不会再碰了,有心理障碍
    MinQ
        89
    MinQ  
       2018-08-08 18:31:05 +08:00 via Android
    @k9982874 我是习惯性把代码 git 到自己的 visual studio online 上,前几天手一抖在项目现场把写了两个星期的代码全删了,瞬间就觉得血液从脸上退下去了,缓了半分钟才想起来 git update 过了。最后花了一天时间重建了一个丢掉的配置文件
    lychnis
        90
    lychnis  
       2018-08-08 18:32:26 +08:00 via Android
    @liuzhedash 啥公司。。。
    nullornull
        91
    nullornull  
       2018-08-08 18:39:14 +08:00
    之前也看过类似不少楼上的运维事故,导致我第一次操作生产数据库的时候,满手是汗(貌似),精神非常紧张,虽然是有事务,可以回滚,也有备份,但是还是忍不住紧张,操作完之后还核对了很多遍.当然现在已经没啥感觉了,但是发现自己错误操作的时候还是会惊出一身冷汗.
    嗷,我也干过卸载 yum 这样的事,虽然是在测试的服务器上,但还是被老大嘲讽了一通.
    diveIntoWork
        92
    diveIntoWork  
       2018-08-08 18:40:41 +08:00
    git 切换分支后,git reset --hard。。。
    AntonChen
        93
    AntonChen  
       2018-08-08 18:44:42 +08:00 via Android
    rm -rf ./* 写成了 rm -rf /* 从此之后不在 ./*
    susunus
        94
    susunus  
       2018-08-08 19:21:46 +08:00 via iPhone   ❤️ 1
    别动不动用啥 我司,你司的,用的不对哈,之前看着不爽,去搜了哈,觉得之前是的国企再用司哈
    pluto
        95
    pluto  
       2018-08-08 19:30:58 +08:00 via Android
    周一数据中心异常断电,部分服务器重启。
    hzwjz
        96
    hzwjz  
       2018-08-08 19:40:52 +08:00 via Android
    那些 rm -rf 日常是是使用 root 登陆服务器操作的么?🤔🤔
    曾经手误 kill 的时候带上了-1,至此打死再也不用 root 用户登录,除非不到万不得已的时候…
    gamexg
        97
    gamexg  
       2018-08-08 20:09:18 +08:00 via Android
    疲劳时别坚持。
    前几天熬夜,连续两次误删文件,第二次快照恢复后立马不再操作休息了。
    Hardrain
        98
    Hardrain  
       2018-08-08 20:17:53 +08:00
    (生产环境)误删 glibc +1
    还不是删了那个 symlink,是把那个 so 文件删了

    兼职遇到的垃圾公司
    AllOfMe
        99
    AllOfMe  
    OP
       2018-08-08 20:21:33 +08:00 via Android
    @Hardrain 是你删除的还是兼职公司人员删除的?后续是重装了吗
    xiaoheshang
        100
    xiaoheshang  
       2018-08-08 20:21:42 +08:00
    @AntonChen 其实我一直用的是 rm -fr *
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1697 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 16:28 · PVG 00:28 · LAX 08:28 · JFK 11:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.