V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
geew
V2EX  ›  DevOps

线上的服务 怎样才能保证做到不挂呢? 监控, 通知机制之类的

  •  
  •   geew · 2014-12-11 10:25:53 +08:00 · 4104 次点击
    这是一个创建于 3428 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天刚到公司, 就有人通知说主页挂了, 进服务器启动了, 查了下日志, 发现
    OSError: [Errno 28] No space left on device: '/tmp/tmp3_Jyjd'

    服务都是用supervisor在跑的, 遇到这种问题该如何才能做好监控工作呢, 尽量保证服务不挂, 谢谢大家了
    7 条回复    2014-12-11 12:50:29 +08:00
    saber000
        1
    saber000  
       2014-12-11 11:38:10 +08:00
    简单的话我在我树莓派跑的服务用upstart自动重启+crontab定时监控并告警
    Livid
        2
    Livid  
    MOD
       2014-12-11 11:41:45 +08:00 via iPhone
    外部监控可以用 Pingdom,监控宝,AWS 这些来看服务是否可用。

    内部状态的话,可以用 New Relic 监控 CPU,磁盘,内存和网络等。
    hging
        3
    hging  
       2014-12-11 11:45:08 +08:00
    @Livid newrelic监控程序也相当不错.
    yangxin0
        4
    yangxin0  
       2014-12-11 11:45:53 +08:00
    用erlang/otp吧完善的监督重启机制
    lincanbin
        5
    lincanbin  
       2014-12-11 12:19:59 +08:00
    内部的话可以添加定时任务,定时wget主页,然后如果出错就restart service。
    BackBox
        6
    BackBox  
       2014-12-11 12:39:12 +08:00
    监控包 New Relic monit 就够了。
    weegc
        7
    weegc  
       2014-12-11 12:50:29 +08:00
    运行服务监控的话,比如nginx、php之类的,自己写的watchdog.sh 监控,报错退出了,自动重启服务
    监控服务器cpu,disk,memory状态的话,很多开源的东东可以使用,不过我还没有用上这方面的东东
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   980 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 23:08 · PVG 07:08 · LAX 16:08 · JFK 19:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.