V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laiwei
V2EX  ›  推广

使用夜莺监控替换 Prometheus + AlertManager + Grafana

  •  
  •   laiwei · 2022-06-21 18:35:47 +08:00 · 3925 次点击
    这是一个创建于 911 天前的主题,其中的信息可能已经有所发展或是发生改变。

    夜莺监控是一款开源云原生监控分析系统,采用 All-In-One 的设计,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力,已有众多企业选择将 Prometheus + AlertManager + Grafana 的组合方案升级为使用夜莺监控。夜莺监控,由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会( CCF ODC ),为 CCF ODC 成立后接受捐赠的第一个开源项目。

    夜莺监控的几个经典案例分析,希望对于构建云原生监控体系的朋友,有帮助:

    4 条回复    2022-06-26 15:00:01 +08:00
    opsonly
        1
    opsonly  
       2022-06-21 23:31:04 +08:00
    像 cpu/mem 这种资源指标,有内置函数支持 P99,P75 这种百分位的维度吗
    laiwei
        2
    laiwei  
    OP
       2022-06-22 13:54:27 +08:00
    @opsonly ,p99/p95 这类统计一般是针对 latency 这类指标有意义的。

    对于 cpu/mem ,在采集的时候,一般都是直接设置为 counter 类型,然后在监控服务端求 rate ,或者求 sum 等到相应的组合值。

    p99,p75 这类分位值的计算,有两种做法,分别是 client 端计算和 server 端计算。

    1 、在你的 app 代码中,埋点相关的 SDK (推荐 opentelemetry sdk ),选择 Summary 类型的数据结构,这样在 client 侧就可以直接生成你想要的分位值。

    2 、在你的 app 代码中,同样埋点相关的 SDK (推荐 opentelemetry sdk ),选择 Histogram 类型的数据结构,这样在监控系统的 server 端,就可以使用 histogram_quantile()函数来计算任意你想要的分位值。
    opsonly
        3
    opsonly  
       2022-06-22 21:00:49 +08:00
    #1 #2 都是针对 latency 这类指标的吗?
    laiwei
        4
    laiwei  
    OP
       2022-06-26 15:00:01 +08:00
    @opsonly
    Histograms and summaries both sample observations, typically request durations or response sizes. They track the number of observations and the sum of the observed values, allowing you to calculate the average of the observed values.
    ----------
    Histograms 数据结构,在监控的场景下,典型的就是度量 latency ( request durations ) 或者 请求的某种特征分布(比如 response size )
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   999 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:19 · PVG 04:19 · LAX 12:19 · JFK 15:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.