alerting 标签归档

共 4 篇文章 · 返回首页

【可观测性工程】SLO 工程：错误预算、Burn Rate、多窗口多燃烧率告警

2026-06-18 | architecture · observability | #slo #sli #error-budget #burn-rate #sre #google-sre #prometheus #alerting #recording-rules

SLO 不是定几个 99.9% 的数字，而是连接业务需求与工程决策的治理机制。从 SLI 定义、错误预算计算到 Google SRE 多窗口多燃烧率 PromQL 规则，并说明 DB 层 SLI 如何映射到服务 SLO。

【可观测性工程】告警体系：Alertmanager、PagerDuty、OnCall 与分级抑制

2026-06-18 | architecture · observability | #alertmanager #pagerduty #oncall #alerting #prometheus #slo #escalation #inhibition

建一套不让人崩溃的告警体系。从 Prometheus Alertmanager 的分组/抑制/静默三元组，到 PagerDuty 排班与升级策略，到分级告警的设计模板与告警质量持续治理。

【PG 内核】监控体系与告警设计：从内核机制出发定义该监控什么

2026-06-16 | database · kernel | #postgresql #pg-kernel #monitoring #observability #pg-stat-statements #pg-stat-activity #pg-locks #pg-stat-replication #autovacuum #prometheus #alerting #pgbadger #pgcenter

不从 Grafana 模板照抄，而是从 PG 内核机制推导出必须监控的六个维度：连接与 wait_event、存储膨胀与 XID wraparound、WAL 与复制延迟、查询性能突变、锁等待链、以及 shared_buffers 命中率骗局。每个维度配具体 SQL 和指标解读，告警阈值给出内核依据而非拍脑袋数字，同时盘点 pg_stat_statements queryid 冲突、track_io_timing 开销、pg_stat_activity 自身代价等监控工具本身的陷阱。

【系统架构设计】告警策略：如何避免"狼来了"

2026-04-13 | architecture | #alerting #SLO-based-alerting #burn-rate #Alertmanager #alert-fatigue

大多数团队的告警系统都在制造噪声而不是传递信号。阈值告警看似直观，实则产生大量误报和漏报，值班工程师在凌晨三点被叫醒，却发现只是一次无害的毛刺。本文从告警疲劳的工业数据出发，拆解基于 SLO 的多窗口燃烧率告警算法，深入 Alertmanager 的路由、抑制与分组机制，结合 PagerDuty 的告警疲劳研究和真实工程案例，给出一套可落地的告警策略设计方法。