SRE 标签归档

共 3 篇文章 · 返回首页

【系统架构设计】SLO 工程：可靠性的量化管理

2026-04-13 | architecture | #SLO #SLI #SLA #error-budget #SRE #burn-rate #reliability

SLI、SLO、SLA 不只是运维指标——它们是架构决策的定量依据。本文从 Google SRE 的 Error Budget 策略出发，拆解多窗口燃烧率告警的数学原理，讲清楚 SLO 如何在产品与工程的冲突中充当仲裁者，并给出基于 Prometheus 和 Grafana 的落地方案。

【系统架构设计】故障排查方法论：从告警到根因的系统化路径

2026-04-13 | architecture | #incident-response #postmortem #ICS #oncall #root-cause-analysis #SRE

凌晨三点的告警响了，你打开笔记本，盯着一堆指标不知道从哪里下手——两小时后发现是配置改错了。这种经历几乎每个 oncall 工程师都有过。本文从 Incident Command System 在 SRE 中的适配讲起，拆解从告警到根因的系统化排查路径，覆盖事件分级、假设驱动调试、事后复盘的无责文化、Google 与 Meta 的 oncall 体系，给出可落地的 Runbook 模板和 Postmortem 模板。

【分布式系统百科】大规模故障复盘：从真实事故中学习分布式系统设计

2026-04-13 | 分布式系统 | #故障复盘 #事故分析 #可靠性 #SRE #分布式系统 #distributed-systems

精选 8 个真实大规模分布式系统故障案例，逐一分析根因、传播路径、恢复过程与事后改进，提炼分布式系统可靠性设计的共性教训。