slo 标签归档 | 土法炼钢兴趣小组的算法知识备份

【可观测性工程】指标体系设计：USE、RED、Golden Signals 与业务 KPI

Prometheus 指标体系怎么选：Google 四大象限 Latency/Traffic/Errors/Saturation，以及 USE、RED 与业务 KPI 的对照、命名与基数治理。

SLO 不是定几个 99.9% 的数字，而是连接业务需求与工程决策的治理机制。从 SLI 定义、错误预算计算到 Google SRE 多窗口多燃烧率 PromQL 规则，并说明 DB 层 SLI 如何映射到服务 SLO。

建一套不让人崩溃的告警体系。从 Prometheus Alertmanager 的分组/抑制/静默三元组，到 PagerDuty 排班与升级策略，到分级告警的设计模板与告警质量持续治理。

混沌工程验证可观测性与告警是否发现故障：稳态假设、ChaosBlade/Chaos Mesh/LitmusChaos 对比、爆炸半径控制、SLO 判定与 Reliability Backlog 闭环。

虚构但可复现的 checkout 服务事故全链路：SLO Burn Rate 告警后按 Golden Minute→Metrics→Traces→Logs→Profile→Events 五阶递进排障，含 PromQL/LogQL/kubectl 命令与三条分级剧本，交叉引用系列 01–22。

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理，面向中国工程团队的可观测性系统化手册。全 25 篇。