V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zhoudaiyu
V2EX  ›  问与答

生产环境下由于应急运维操作导致的故障如何避免?

  •  1
     
  •   zhoudaiyu · 2023-02-01 22:59:24 +08:00 via iPhone · 1148 次点击
    这是一个创建于 688 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有一些应急场景下需要执行一些平时运维自动化平台或者脚本难以覆盖到的运维命令,需要在服务器上现场敲命令执行,但是情急之下,难免因为粗心大意以及缺少交叉验证(因为人手不是很充足,有时候大家都各忙各的)引发了其他故障,扩大故障影响面。请问大家这种情况怎么能尽量避免呢?因为现阶段运维平台还是难以覆盖到全部场景,我想到的是一个人操作的时候,把要执行的最终命令发到群里让大家看一下,没问题就直接粘进去执行,还有执行前要有灰度操作,或者至少能模拟出执行命令前的大致情况,才能执行。不知道大家对这方面有啥好的想法或者一些实践能指点一下。
    第 1 条附言  ·  2023-02-02 08:25:00 +08:00

    高危操作强制投屏怎么样?让大家一起盯着点

    11 条回复    2023-02-02 16:04:24 +08:00
    fuzzsh
        1
    fuzzsh  
       2023-02-01 23:09:03 +08:00 via Android
    处理故障谁还有空看群。。
    MuscleOf2016
        2
    MuscleOf2016  
       2023-02-01 23:16:39 +08:00
    小范围修改验证灰度
    perfectlife
        3
    perfectlife  
       2023-02-01 23:46:24 +08:00 via Android
    这时候就凸显运维的经验和水平了
    darkengine
        4
    darkengine  
       2023-02-01 23:52:59 +08:00
    预算足的话准备一台一模一样的备机,需要现场敲命令的现在备机上运行一遍,没问题再复制粘贴到生产服务器上执行
    GopherDaily
        5
    GopherDaily  
       2023-02-01 23:55:55 +08:00
    故障处理是很考验人的,不要寄希望有人能给你 review ,我个人觉得核心的几点:
    - 胆大,其实这个是前提,遇到大问题,脑子直接宕机的人是不适合的
    - 心细,在得出判断后,再想:如果是 xxx ,那么 yyy ,尽量再去找 yyy 的证据,然后采信 xxx
    - 日常积累
    8zip
        6
    8zip  
       2023-02-01 23:56:59 +08:00 via Android
    核心是避免应急场景
    紧急情况翻车才是常见的
    opengps
        7
    opengps  
       2023-02-02 00:23:05 +08:00
    既然已经是在线开发,那么要做的恐怕也就是多备份了。
    联机开发错误必然直接影响线上,多个人看一遍比你单独找人测试一遍效率质量都要更低
    idblife
        8
    idblife  
       2023-02-02 07:50:40 +08:00 via iPhone
    这是真正考验个人水平的时候
    echo1937
        9
    echo1937  
       2023-02-02 08:41:48 +08:00
    1 、危险操作先报告,批准后再操作;
    2 、解决方案测试环境上先测过,再上生产环境执行;
    3 、现场执行 2 人作业,一人作业一人监护(参考电力作业)
    coolloves
        10
    coolloves  
       2023-02-02 11:37:17 +08:00
    我们有紧急情况的时候,都是一人工作 n 人围观.
    killva4624
        11
    killva4624  
       2023-02-02 16:04:24 +08:00
    找那么几个关键的人一起帮你 review 命令;
    另外一个个人经验是,涉及到文件覆盖类的话,尽可能保持回滚能力,不能一把梭之后无法回头。
    比如要手改代码或者覆盖二进制文件、配置文件,先 cp 一个备份;
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2920 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 08:15 · PVG 16:15 · LAX 00:15 · JFK 03:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.