【可观测性工程】SLO 工程:错误预算、Burn Rate、多窗口多燃烧率告警
SLO 不是定几个 99.9% 的数字,而是连接业务需求与工程决策的治理机制。拆解 SLI 选择、错误预算计算、Burn Rate 告警公式,以及 SLO 文化如何在组织中落地。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 3 篇文章 · 返回首页
SLO 不是定几个 99.9% 的数字,而是连接业务需求与工程决策的治理机制。拆解 SLI 选择、错误预算计算、Burn Rate 告警公式,以及 SLO 文化如何在组织中落地。
建一套不让人崩溃的告警体系。从 Prometheus Alertmanager 的分组/抑制/静默三元组,到 PagerDuty 排班与升级策略,到分级告警的设计模板与告警质量持续治理。
大多数团队的告警系统都在制造噪声而不是传递信号。阈值告警看似直观,实则产生大量误报和漏报,值班工程师在凌晨三点被叫醒,却发现只是一次无害的毛刺。本文从告警疲劳的工业数据出发,拆解基于 SLO 的多窗口燃烧率告警算法,深入 Alertmanager 的路由、抑制与分组机制,结合 PagerDuty 的告警疲劳研究和真实工程案例,给出一套可落地的告警策略设计方法。