土法炼钢兴趣小组的算法知识备份

可观测性工程

文章导航

分类入口
architectureobservability
标签入口
#observability#opentelemetry#prometheus#ebpf#slo#tracing#profiling#logs#metrics

目录

十年前问”系统挂没挂”,看一张 Zabbix 的 CPU 图就够;今天问”为什么 p99 突增”,要同时看 Metrics、Logs、Traces、Profiles 加上服务拓扑、变更事件、K8s 调度,才能落到一行具体代码上。现代可观测性已经是一套工程体系:数据模型、传输协议、存储结构、查询语言、采样策略、成本控制、SLO 治理、故障响应,每一环都可以单独写一本书。

这个系列面向 SRE、平台工程师、架构师与稳定性负责人,把可观测性当成工程问题来拆:协议怎么选、eBPF 能做到哪一步、OpenTelemetry 的语义约定为什么重要、SLO 与告警怎么闭环、国内厂商的方案有哪些坑、事故发生时怎么从”指标抖动”走到”代码行号”。

本系列为工程参考,不构成任何具体产品或厂商背书。

适合谁看

推荐阅读路径

目录

第一部分:可观测性基础

  1. 可观测性全景:Metrics、Logs、Traces、Profiles、Events 五大支柱
  2. 可观测性 vs 监控:从 Zabbix/Nagios 到 OpenTelemetry 的二十年
  3. 指标体系设计:USE、RED、Golden Signals 与业务 KPI
  4. 埋点哲学:粒度、采样、基数爆炸与成本模型
  5. 数据模型:时间序列、日志、Span、Profile 的内部表达

第二部分:三大支柱深入

  1. Metrics:Prometheus、VictoriaMetrics、Thanos、Mimir、M3
  2. 时序数据库内核:TSM、TSI、倒排索引与 Gorilla 压缩
  3. Logs:Loki、ClickHouse、Elasticsearch、OpenObserve 的取舍
  4. 日志管道:Fluent Bit、Vector、Logstash、Filebeat
  5. Traces:Jaeger、Tempo、Zipkin、SkyWalking 与采样传播
  6. OpenTelemetry 深入:SDK、Collector、语义约定与版本演进
  7. 持续性能分析(Profiling):pprof、Pyroscope、Parca、async-profiler、JFR
  8. Events 与变更关联:CloudEvents、发布打点、K8s 事件

第三部分:eBPF 与内核可观测性

  1. eBPF 可观测性全景:bcc、bpftrace、libbpf 的工程路径
  2. 网络可观测性:Cilium Hubble、Pixie、DeepFlow、Tetragon
  3. Continuous Profiling:Parca、Pyroscope、Grafana Beyla
  4. 内核追踪:ftrace、kprobe、uprobe、tracepoint 生产实战

第四部分:治理与工程落地

  1. SLO 工程:错误预算、Burn Rate、多窗口多燃烧率告警
  2. 告警体系:Alertmanager、PagerDuty、OnCall 与分级抑制
  3. 可观测性存储与成本:采样、下采样、冷热分层、对象存储
  4. 多租户与安全:数据隔离、标签治理、PII 清洗
  5. 故障演练与混沌工程:ChaosBlade、Chaos Mesh、LitmusChaos

第五部分:真实案例与中国落地

  1. 中国可观测性厂商对比:阿里 ARMS、腾讯 APM、华为 AOM、观测云、夜莺、DeepFlow
  2. 真实事故复盘:从指标抖动到根因的全链路追查剧本
  3. 自建 vs 托管:OpenTelemetry 自建栈与 SaaS 的选型决策

延伸阅读

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-22 · architecture / observability

【可观测性工程】指标体系设计:USE、RED、Golden Signals 与业务 KPI

USE 方法论适用于资源,RED 方法论适用于请求,Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发,构建覆盖资源→服务→业务的完整指标体系,并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。


By .