V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lavdemo
V2EX  ›  问与答

运维如何做故障排查?

  •  
  •   lavdemo · 2016-06-24 12:00:30 +08:00 · 2067 次点击
    这是一个创建于 2856 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家做故障排查的时候有什么通用的思路和方法吗?能帮助我缩短故障排查时间,尽快解决问题。最好能举例说明下。

    4 条回复    2016-06-24 16:29:17 +08:00
    scys
        1
    scys  
       2016-06-24 12:08:14 +08:00   ❤️ 1
    看日志
    luojiyin87
        2
    luojiyin87  
       2016-06-24 15:09:48 +08:00   ❤️ 1
    先 dmesg 看系统的日志.有无系统级别的报错, 在看问题软件的日志. top/htop 查看 进程状态是否有异常.
    cloudwise
        3
    cloudwise  
       2016-06-24 16:26:49 +08:00
    前端时间,我们有个客户分享了他的真实经历,我觉得其中有个例子跟主题蛮接近,贴出来看下。

    关于移动用户无法访问网站

    ![](//i.v2ex.co/E2mCBCxe.png)

    上面是 4 月 21 日交换机的入口出口图,在 20 点整的时候出现一个流量的掉坑,根据这张图可以很明显的看到流量在进来的时候就已经减少了,这个时候系统内部却没发现有其他异常,下面在看下 nginx 的入口出口图

    ![](//i.v2ex.co/K4142Cgr.png)

    可以很明显的看到也是流量进来就减少了,造成出去的流量减少,那么问题肯定出在外部。

    ![](//i.v2ex.co/0nsZQwSI.png)

    可以很明显的看到 4 月 21 日 20 点持续 25 分钟的移动用户节点无法访问,

    ![](//i.v2ex.co/H3JXe78R.png)

    这时候就不是我们的事了,而是机房的事,于是马上打电话给机房反馈情况,机房帮我们做了路由优化才解决这过程持续了将近 20 分钟。
    cloudwise
        4
    cloudwise  
       2016-06-24 16:29:17 +08:00
    图片重新发下:


    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4471 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:03 · PVG 12:03 · LAX 21:03 · JFK 00:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.