V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  laiwei  ›  全部回复第 1 页 / 共 13 页
回复总数  251
1  2  3  4  5  6  7  8  9  10 ... 13  
113 天前
回复了 laiwei 创建的主题 程序员 一张图说清告警值班 Oncall 的流程
@hxndg 你可以看看国外的 PagerDuty 案例,国内的 Flashduty 的案例。oncall 是一个现实问题,有标准解法。
@raincaptain 收藏起来慢看看:)
@NeverBB @AaronWang13 已经控制长度了,内容再多就看不完了~
275 天前
回复了 laiwei 创建的主题 DevOps Google SRE 的 on-call 方法和工具
@yuepu 反过来想,CEO 能关注技术,总比不闻不问要来的好!
295 天前
回复了 laiwei 创建的主题 DevOps Google SRE 的 on-call 方法和工具
@yuepu CEO 会接吗??
296 天前
回复了 laiwei 创建的主题 DevOps Google SRE 的 on-call 方法和工具
@nullyouraise 如果是关键服务受损,确实是需要第一时间处理的。只不过是需要考虑定期的轮换,否则压力太大,涉及到轮换,就需要有合适的协同工具。
297 天前
回复了 laiwei 创建的主题 DevOps Google SRE 的 on-call 方法和工具
@clifftts 长期 on-call ,精神压力是会很大的。
297 天前
回复了 laiwei 创建的主题 DevOps Google SRE 的 on-call 方法和工具
@levelworm 外企相对会多一点
2023-12-04 22:58:55 +08:00
回复了 gregy 创建的主题 云计算 阿里云的云监控有没有便宜的渠道
有一个 DIY 的方案,大概花费 99 元:)

- 第一步,去阿里云或者腾讯云 99 元买一个云主机;
- 第二步,在云主机部署 catpaw 项目,参考 https://flashcat.cloud/blog/catpaw-introduce/ ,直接对你的网站进行探测,如果探测到网站有失败,则直接用 Flashduty 免费的通知发送渠道通知到你。
2023-12-04 22:53:40 +08:00
回复了 gregy 创建的主题 云计算 阿里云的云监控有没有便宜的渠道
有一个 DIY 的方案:
2023-07-26 14:20:20 +08:00
回复了 dog82 创建的主题 Java 安全 QA 说只允许 POST/GET 请求,其它的都不安全?
你给安全说,POST 、GET 也不安全。
2023-07-13 14:20:30 +08:00
回复了 laiwei 创建的主题 推广 SRETalk: 100 位运维 KOL,持续输出观点
更新了两集,分别是《途游邹轶 - 中小公司的运维怎么做?》、《王明松 - 自我革命的“王四条”是怎样练成的》
2022-11-30 15:08:41 +08:00
回复了 fox0001 创建的主题 Linux [交流] Linux 服务器,大家使用什么方案监控性能和资源?
@neilyoone 可以试试夜莺监控 = Zabbix + Prometheus + Grafana :) https://github.com/ccfos/nightingale
2022-11-29 15:09:12 +08:00
回复了 liaotonglang 创建的主题 分享创造 做了个服务器资源监控程序
@orluna

有一些用户,会在这里登记和分享,可以参考: https://github.com/ccfos/nightingale/issues/897
2022-11-28 18:37:08 +08:00
回复了 liaotonglang 创建的主题 分享创造 做了个服务器资源监控程序
试试[夜莺监控]( https://github.com/ccfos/nightingale) :)

夜莺监控是一款开源云原生监控分析系统,采用 All-In-One 的设计理念,集数据采集、可视化、监控告警于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力,已有众多企业选择将 Prometheus + AlertManager + Grafana 的组合方案升级为使用夜莺监控。
2022-11-02 10:12:20 +08:00
回复了 qwertyzzz 创建的主题 生活 如果嘴巴不能呼吸的话
鼻子、嘴巴双通道备份,架构设计很合理。
2022-10-30 21:00:45 +08:00
回复了 laiwei 创建的主题 推广 《说透 Kubernetes 云原生监控》系列文章,交流收藏
追加一篇文章《 Zabbix 和夜莺监控选型对比》 http://flashcat.cloud/blog/zabbx-vs-nightingale/,来自 Zabbix 社区专家张世宏,张世宏也是 Nightingale 社区活跃贡献者。
2022-10-11 12:37:53 +08:00
回复了 laiwei 创建的主题 推广 《说透 Kubernetes 云原生监控》系列文章,交流收藏
看到很多 v 友收藏,谢谢,我会继续 append 这个主题。
2022-10-05 17:49:07 +08:00
回复了 laiwei 创建的主题 推广 《说透 Kubernetes 云原生监控》系列文章,交流收藏
@pavelpiero

是的,业务层面的监控,很多需要在业务代码层面主动埋点(不过好消息是埋点的工作量,借助于 open telemetry ,已经可以降低到足够低了,且都是标准化的方案)

但是对于各种基础设施、中间件、云资源,这些监控,不需要百花齐放百家争鸣,尽可能选择最佳实践,开箱即用是更好的。
2022-10-05 17:46:38 +08:00
回复了 laiwei 创建的主题 推广 《说透 Kubernetes 云原生监控》系列文章,交流收藏
@plko345 Prometheus 是一个挺好的工具,但是也存在一些痛点:

1. ‌功能相对单一,产品化程度低,难以开箱即用;
> 举个例子:可视化一般必须配合 grafana 来工作,告警一般也需要配合 alert manager 来一起工作,且告警策略的改动都需要修改配置文件。夜莺监控把数据采集、可视化、告警管理这些基本能力,都做成了 all-in-one 的产品化方案。

2. ‌数据量过大时,官方缺乏合适的扩展性方案;

3. ‌多集群管理功能缺失;
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2539 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 11:22 · PVG 19:22 · LAX 03:22 · JFK 06:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.