最近公司在做监控方面的选型,想了解一下大家的业务场景及监控技术栈 /架构选型
可以分为三个方向展开
1.业务监控(链路追踪、慢查询慢调用等)
2.基础监控(虚拟机 / 容器 CPU 、Network 、Mem 等基础指标)
3.运维监控( K8s 、物理机、虚拟机等管理)
其中第三点可以先不考虑,SRE 团队可以接手
或从 Metrics,Tracing,Logging 展开,一些搭配方案
或现有三方开源监控全链路解决方案、Open-Falcon 、Nightingale
由于楼主是新手 初探这个领域,想跟大家交流进步一下 错误之处多多包涵
1
Sparkli OP 基础监控包括第三方中间件监控,Redis 、ElasticSearch 这种 不过了解不多,大部分都有自身的监控数据 API
|
2
hadesy 2021-07-31 23:18:40 +08:00 2
prometheus/thanos + skywalking + elk
|
3
dream4ever 2021-08-01 00:07:55 +08:00 via iPhone
我们不是互联网公司,买的阿里云的服务器,自带基础监控功能,感觉日常业务基本够用。
|
4
blackshadow 2021-08-01 00:29:47 +08:00 via iPhone
2 楼+1
|
5
mreasonyang 2021-08-01 03:12:43 +08:00 via iPhone
主流方案就是二楼所说的这些搭配使用,整合的成套实现可以参考 cat https://github.com/dianping/cat 。总的来说想做好监控不仅仅需要一个好的监控服务端实现,客户端基础组件层面的埋点上报相关工作也是重要且繁多的
|
6
wellsc 2021-08-01 03:29:08 +08:00 via iPhone
物理机的话,zabbix 也还可以
|
7
daxiguaya 2021-08-01 10:18:57 +08:00
可以业余去"了解"下 https://opentelemetry.io/
|
8
lplusk 2021-08-01 10:37:59 +08:00
主流开源方案就是 2 楼说的那个,另外很多大厂会有自研方案。做好监控的真正难点不在于技术选型,而在于监控点覆盖、报警阈值调教、值班应急这一整套流程。
|
9
dreamramon 2021-08-01 11:18:37 +08:00
最开始用 prometheus 和 skywalking,最后都是自研,这样才好和 ci/de,内部通讯工具相结合。
|
10
Alliot 2021-08-01 12:38:55 +08:00 via Android
传统服务的系统基础监控+基本业务监控,nightingale 基本可以一套解决,中小型企业 v3 版本甚至可以包揽 cmdb 、任务执行平台的角色。
k8s 微服务还是 prometheus 全家桶更适合。 |
11
Alliot 2021-08-01 12:40:24 +08:00 via Android 1
@Alliot falcon 可以不用考虑了,夜莺 nightingale 的原班人马,99%的生态兼容。
我司就是从 falcon 转向夜莺的。 |
12
saytesnake 2021-08-01 17:36:41 +08:00
nightingale + Pinpoint
|
13
wongskay 2021-08-01 21:49:47 +08:00
prometheus
|
14
Sparkli OP @dreamramon 主要顾虑点是定制化需求很高吗
|
16
qq7790586 2021-08-01 22:14:00 +08:00
内部监控用什么啊???
|
17
Sparkli OP @mreasonyang 这个看起来不错,学习了 不过有二开需求 如果是用 GO 写的更好了
|
20
Kyle18Tang 2021-08-02 11:31:34 +08:00
@daxiguaya #7 就等 Spring Cloud Sleuth 正式支持它了
|
21
BQsummer 2021-08-02 11:51:34 +08:00
2L+1,APM 选型上还有 cat 、zipkin 、pinpoint ; prometheus 不能集群部署,单点有瓶颈
|