可观测性工程系列 · 深化写作计划
状态:已全部完成(2026-06-18)。 25 篇正文均达到 DEEPENING_PLAN 目标行数。本文档保留作写作过程记录。
详细大纲见同目录
WRITING_PLAN.md;本文件聚焦当前草稿与发布标准的差距、写作批次和验收标准。
一、为什么要写这份计划
可观测性系列 index 已声明 25 篇,目录结构完整。但 2026-06 审阅显示:
| 状态 | 篇目 | 典型行数 | 备注 |
|---|---|---|---|
| 发布级 | 01–25 全系列 | 826–1761 | 2026-06-18 深化批次全部达标 |
本计划目标:按依赖关系把 13
篇草稿深化到与 01–03 同等的发布标准,使 index
中的推荐阅读路径(尤其
01→04→05、18→19→22→24、23→25)全部可用。
二、深化优先级与写作批次
第一批(基础层,阻塞最多下游)— 04、05 ✅
| 篇 | 当前 | 目标 | 阻塞 | 状态 |
|---|---|---|---|---|
| 04 埋点哲学 | ≥1200 行 | ≥1200 行 | 09、10、18、19、20 | ✅ |
| 05 数据模型 | ≥1200 行 | ≥1200 行 | 09、10、20 | ✅ |
04 必须补全的内容(大纲见 WRITING_PLAN
§04): - 基数爆炸的真实数字:在本机 Prometheus 上构造高基数
label,记录 prometheus_tsdb_head_series 变化 -
三种采样策略的 PromQL / OTel Collector 配置片段(实际跑过)
- 四象限决策树配 Mermaid + 至少 2 个真实坑点复盘
05 必须补全的内容(大纲见 WRITING_PLAN
§05): - Prometheus TSDB block 结构 vs Loki chunk vs Tempo
block 的字段级对照 - 引用本站 07-tsdb-internals
但不重复 Gorilla 细节 -
存储成本数量级估算公式(带假设,不编造厂商报价)
第二批(三大支柱补环)— 09、10 ✅
| 篇 | 当前 | 目标 | 前置 | 状态 |
|---|---|---|---|---|
| 09 日志管道 | ≥1200 行 | ≥1200 行 | 08 | ✅ |
| 10 Traces 栈 | ≥1200 行 | ≥1200 行 | 05、11 | ✅ |
09 核心实验:Fluent Bit vs Vector 在相同 nginx access log 上的 CPU/内存/延迟(声明硬件与 QPS)。
10 核心实验:Jaeger 头部采样 vs Tempo 尾部采样在相同负载下的存储量对比;OpenTelemetry Collector tail_sampling processor 配置。
第三批(内核追踪收束)— 17
| 篇 | 当前 | 目标 | 前置 |
|---|---|---|---|
| 17 内核追踪 | 1205 行 | ≥1200 行 | 14 |
17 必须包含:ftrace function_graph
真实输出片段、bpftrace 一行脚本追踪 connect 延迟、与
linux-net/23-tracing-toolkit
的交叉引用边界(本系列偏 SRE 排障路径,不重复 sk_buff
解剖)。
第四批(治理层,系列价值核心)— 18→19→20→21→22
| 篇 | 当前 | 目标 | 写作顺序 | 状态 |
|---|---|---|---|---|
| 18 SLO 工程 | 1400+ 行 | ≥1400 行 | 1 | ✅ 已完成 |
| 19 告警体系 | 1404 行 | ≥1400 行 | 2(依赖 18) | ✅ 已完成 |
| 20 存储与成本 | 1401 行 | ≥1400 行 | 3(可与 19 并行) | ✅ 已完成 |
| 21 多租户与安全 | 1203 行 | ≥1200 行 | 4(依赖 20) | ✅ 已完成 |
| 22 混沌工程 | 1206 行 | ≥1200 行 | 5(依赖 18、19) | ✅ 已完成 |
18 必须补全(WRITING_PLAN §18): -
Google SRE 多窗口多燃烧率 PromQL 规则(在本地 Prometheus
跑通) - 错误预算消耗曲线 SVG(数据来自合成 SLI
或公开案例,标注来源) - 与 PG 内核系列
21-monitoring 的联动:DB 层 SLI 如何映射到服务
SLO
19 必须补全: - 完整
alertmanager.yml 示例:route + inhibit +
receiver(钉钉/Slack webhook 二选一,实际测通) -
告警风暴时序图 Mermaid - 「Page 只用于 SLO Burn
Rate」的分级模板
20 必须补全: - 四类数据(Metrics/Logs/Traces/Profiles)成本占比的估算 worksheet(假设 200 服务规模,每个假设写清) - Loki/Mimir/Tempo retention 配置的 before/after 存储占用(本机或 minikube 实测)
第五批(系列收束)— 23→24→25
| 篇 | 当前 | 目标 | 前置 | 状态 |
|---|---|---|---|---|
| 23 中国厂商对比 | 1403 行 | ≥1400 行 | 06–16 深化完成 | ✅ 已完成 |
| 24 事故复盘剧本 | 1404 行 | ≥1400 行 | 01–22 | ✅ 已完成 |
| 25 自建 vs 托管 | 1402 行 | ≥1400 行 | 20、23 | ✅ 已完成 |
24 必须是一条完整虚构但可复现的排障链路:指标异常 → Logs 线索 → Trace 定位 → Profile 确认 → 变更关联 → 修复验证。引用前面各篇的具体工具命令,不发明工具行为。
三、依赖关系图
04 ─┬─→ 09 ──┐
│ │
05 ─┤─→ 10 ──┤
│ │
└─→ 20 ───┤
│
17(依赖 14) │
├─→ 18 → 19 → 22 ─┐
│ │
└──────────────────┤
↓
23 → 25
↑
24 ───┘
四、阅读路径(深化完成后)
| 读者目标 | 路径 | 篇数 |
|---|---|---|
| 系统入门 | 01→02→03→04→05 | 5 |
| 三大支柱选型 | 06→08→09→10→11 | 5 |
| SLO 与事故治理 | 18→19→20→22→24 | 5 |
| 国内选型 | 23→25 | 2 |
| 完整通读 | 01→…→25 | 25 |
五、来源台账(治理层重点)
A 级
- Google SRE Workbook, Chapter 5(SLO 告警)
- Prometheus Alertmanager 官方文档(routing/inhibition)
- OpenTelemetry Specification(Semantic Conventions、Sampling)
- 各组件官方文档:Loki、Tempo、Mimir、VictoriaMetrics
B 级
- Charity Majors «Observability Engineering»
- Grafana Labs 工程博客(Mimir 成本、Tempo 采样)
禁止
- 无版本上下文的厂商营销页单独支撑对比结论
- 未实测的性能倍数写进正文
六、实验台账(治理批次)
| 篇 | 实验 | 环境 |
|---|---|---|
| 04 | 高基数 label 压测 Prometheus | 本机 Docker Compose |
| 18 | Multi-burn-rate 告警规则触发 | Prometheus + Alertmanager |
| 19 | grouping/inhibit 规则验证 | 同上 |
| 20 | Loki retention 前后磁盘占用 | minikube + Loki |
| 10 | head vs tail sampling 存储量 | OTel Collector + Tempo |
每次 benchmark 交代:CPU、内存、OS、组件版本、负载 QPS、采样率、运行轮次(≥3,取中位数)。
七、验收标准(每篇深化后)
按 WRITING_GUIDE.md 第十三节,外加:
八、与其他系列的联动
| 已有系列 | 联动方式 |
|---|---|
db/postgresql-kernel/21-monitoring |
SLO 章引用 PG 监控维度 |
db/postgresql-kernel/23-perf-investigation |
事故剧本章引用五层调查链 |
ebpf/14-bpf-debugging |
内核追踪章引用 eBPF 工具 |
linux-net/23-tracing-toolkit |
17 篇引用但不重复 netfilter 路径 |
九、边界承诺
承诺
- 治理层(18–22)以「可操作的决策链」组织,不只罗列工具
- 成本数字来自实测或明确标注的假设模型
- 中国厂商对比(23)写能力边界与 lock-in 风险,不做排名榜
不承诺
- 云厂商实时定价表
- 替读者做最终采购决策
十、时间线与下一步
深化 04、05→09、10、17→18–22→23–25(全部完成,2026-06-18)- 系列 index 推荐阅读路径
01→04→05、18→19→22→24、23→25均已可用 - 后续维护:厂商定价与产品功能以官方文档为准,正文用假设模型与 POC 清单
规划版本:v2,2026-06-18(全系列深化完成)
关联文档:WRITING_PLAN.md(逐篇详细大纲)、index.md(读者入口)
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
可观测性工程
从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。