可观测性工程

十年前问”系统挂没挂”，看一张 Zabbix 的 CPU 图就够；今天问”为什么 p99 突增”，要同时看 Metrics、Logs、Traces、Profiles 加上服务拓扑、变更事件、K8s 调度，才能落到一行具体代码上。现代可观测性已经是一套工程体系：数据模型、传输协议、存储结构、查询语言、采样策略、成本控制、SLO 治理、故障响应，每一环都可以单独写一本书。

这个系列面向 SRE、平台工程师、架构师与稳定性负责人，把可观测性当成工程问题来拆：协议怎么选、eBPF 能做到哪一步、OpenTelemetry 的语义约定为什么重要、SLO 与告警怎么闭环、国内厂商的方案有哪些坑、事故发生时怎么从”指标抖动”走到”代码行号”。

本系列为工程参考，不构成任何具体产品或厂商背书。

系列状态：已完成（2026-06-18）。25 篇全部可读。

适合谁看

SRE / 稳定性工程师：正在搭建或优化可观测栈，负责 SLO、告警、事故响应。
平台工程师：为全公司提供统一观测平台、基础库、埋点规范。
后端与架构师：需要理解埋点成本、采样、数据模型如何影响系统性能与账单。
稳定性负责人：面对云厂商方案（阿里 ARMS、腾讯 APM、华为 AOM、观测云等）的选型与自建决策。

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / observability

可观测性工程

文章导航

目录

适合谁看

推荐阅读路径

目录

第一部分：可观测性基础

第二部分：三大支柱深入

第三部分：eBPF 与内核可观测性

第四部分：治理与工程落地

第五部分：真实案例与中国落地

延伸阅读

同主题继续阅读

【可观测性工程】可观测性全景：Metrics、Logs、Traces、Profiles、Events 五大支柱

【可观测性工程】真实事故复盘剧本：从指标抖动到根因的全链路追查

【可观测性工程】OpenTelemetry 深入：SDK、Collector、语义约定与版本演进

【可观测性工程】指标体系设计：USE、RED、Golden Signals 与业务 KPI