十年前问”系统挂没挂”,看一张 Zabbix 的 CPU 图就够;今天问”为什么 p99 突增”,要同时看 Metrics、Logs、Traces、Profiles 加上服务拓扑、变更事件、K8s 调度,才能落到一行具体代码上。现代可观测性已经是一套工程体系:数据模型、传输协议、存储结构、查询语言、采样策略、成本控制、SLO 治理、故障响应,每一环都可以单独写一本书。
这个系列面向 SRE、平台工程师、架构师与稳定性负责人,把可观测性当成工程问题来拆:协议怎么选、eBPF 能做到哪一步、OpenTelemetry 的语义约定为什么重要、SLO 与告警怎么闭环、国内厂商的方案有哪些坑、事故发生时怎么从”指标抖动”走到”代码行号”。
本系列为工程参考,不构成任何具体产品或厂商背书。
适合谁看
- SRE / 稳定性工程师:正在搭建或优化可观测栈,负责 SLO、告警、事故响应。
- 平台工程师:为全公司提供统一观测平台、基础库、埋点规范。
- 后端与架构师:需要理解埋点成本、采样、数据模型如何影响系统性能与账单。
- 稳定性负责人:面对云厂商方案(阿里 ARMS、腾讯 APM、华为 AOM、观测云等)的选型与自建决策。
推荐阅读路径
- 想系统入门 → 01 → 02 → 03 → 04 → 05
- 做三大支柱选型 → 06 → 08 → 10 → 11
- 做性能与内核观测 → 12 → 14 → 15 → 16 → 17
- 做 SLO 与事故治理 → 18 → 19 → 22 → 24
- 国内方案对比 / 自建 vs 托管 → 23 → 25
目录
第一部分:可观测性基础
- 可观测性全景:Metrics、Logs、Traces、Profiles、Events 五大支柱
- 可观测性 vs 监控:从 Zabbix/Nagios 到 OpenTelemetry 的二十年
- 指标体系设计:USE、RED、Golden Signals 与业务 KPI
- 埋点哲学:粒度、采样、基数爆炸与成本模型
- 数据模型:时间序列、日志、Span、Profile 的内部表达
第二部分:三大支柱深入
- Metrics:Prometheus、VictoriaMetrics、Thanos、Mimir、M3
- 时序数据库内核:TSM、TSI、倒排索引与 Gorilla 压缩
- Logs:Loki、ClickHouse、Elasticsearch、OpenObserve 的取舍
- 日志管道:Fluent Bit、Vector、Logstash、Filebeat
- Traces:Jaeger、Tempo、Zipkin、SkyWalking 与采样传播
- OpenTelemetry 深入:SDK、Collector、语义约定与版本演进
- 持续性能分析(Profiling):pprof、Pyroscope、Parca、async-profiler、JFR
- Events 与变更关联:CloudEvents、发布打点、K8s 事件
第三部分:eBPF 与内核可观测性
- eBPF 可观测性全景:bcc、bpftrace、libbpf 的工程路径
- 网络可观测性:Cilium Hubble、Pixie、DeepFlow、Tetragon
- Continuous Profiling:Parca、Pyroscope、Grafana Beyla
- 内核追踪:ftrace、kprobe、uprobe、tracepoint 生产实战
第四部分:治理与工程落地
- SLO 工程:错误预算、Burn Rate、多窗口多燃烧率告警
- 告警体系:Alertmanager、PagerDuty、OnCall 与分级抑制
- 可观测性存储与成本:采样、下采样、冷热分层、对象存储
- 多租户与安全:数据隔离、标签治理、PII 清洗
- 故障演练与混沌工程:ChaosBlade、Chaos Mesh、LitmusChaos
第五部分:真实案例与中国落地
- 中国可观测性厂商对比:阿里 ARMS、腾讯 APM、华为 AOM、观测云、夜莺、DeepFlow
- 真实事故复盘:从指标抖动到根因的全链路追查剧本
- 自建 vs 托管:OpenTelemetry 自建栈与 SaaS 的选型决策
延伸阅读
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【可观测性工程】可观测性全景:Metrics、Logs、Traces、Profiles、Events 五大支柱
从控制论到云原生:拆解可观测性的五大信号支柱,对比监控与可观测性的本质区别,梳理开源/商业/SaaS 分类,以及国内互联网公司三大支柱落地现状与典型工程坑点。
【可观测性工程】OpenTelemetry 深入:SDK、Collector、语义约定与版本演进
从 OpenTracing 与 OpenCensus 合并到今天的 OTel v1 稳定版,梳理 SDK 生命周期、Collector 流水线、OTLP 协议与 Semantic Conventions 的工程意义,并结合阿里 ARMS、观测云、夜莺等国内实践,给出多租户与尾采样的落地建议。
【可观测性工程】可观测性 vs 监控:从 Zabbix/Nagios 到 OpenTelemetry 的二十年
监控与可观测性不是新旧迭代,而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线,对比 push/pull 模型、数据模型差异,以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。
【可观测性工程】指标体系设计:USE、RED、Golden Signals 与业务 KPI
USE 方法论适用于资源,RED 方法论适用于请求,Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发,构建覆盖资源→服务→业务的完整指标体系,并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。