可观测性工程系列 · 深化写作计划

状态：已全部完成（2026-06-18）。 25 篇正文均达到 DEEPENING_PLAN 目标行数。本文档保留作写作过程记录。

详细大纲见同目录 WRITING_PLAN.md；本文件聚焦当前草稿与发布标准的差距、写作批次和验收标准。

一、为什么要写这份计划

可观测性系列 index 已声明 25 篇，目录结构完整。但 2026-06 审阅显示：

状态	篇目	典型行数	备注
发布级	01–25 全系列	826–1761	2026-06-18 深化批次全部达标

本计划目标：按依赖关系把 13 篇草稿深化到与 01–03 同等的发布标准，使 index 中的推荐阅读路径（尤其 01→04→05、18→19→22→24、23→25）全部可用。

二、深化优先级与写作批次

第一批（基础层，阻塞最多下游）— 04、05 ✅

篇	当前	目标	阻塞	状态
04 埋点哲学	≥1200 行	≥1200 行	09、10、18、19、20	✅
05 数据模型	≥1200 行	≥1200 行	09、10、20	✅

04 必须补全的内容（大纲见 WRITING_PLAN §04）： - 基数爆炸的真实数字：在本机 Prometheus 上构造高基数 label，记录 prometheus_tsdb_head_series 变化 - 三种采样策略的 PromQL / OTel Collector 配置片段（实际跑过） - 四象限决策树配 Mermaid + 至少 2 个真实坑点复盘

05 必须补全的内容（大纲见 WRITING_PLAN §05）： - Prometheus TSDB block 结构 vs Loki chunk vs Tempo block 的字段级对照 - 引用本站 07-tsdb-internals 但不重复 Gorilla 细节 - 存储成本数量级估算公式（带假设，不编造厂商报价）

第二批（三大支柱补环）— 09、10 ✅

篇	当前	目标	前置	状态
09 日志管道	≥1200 行	≥1200 行	08	✅
10 Traces 栈	≥1200 行	≥1200 行	05、11	✅

09 核心实验：Fluent Bit vs Vector 在相同 nginx access log 上的 CPU/内存/延迟（声明硬件与 QPS）。

10 核心实验：Jaeger 头部采样 vs Tempo 尾部采样在相同负载下的存储量对比；OpenTelemetry Collector tail_sampling processor 配置。

第三批（内核追踪收束）— 17

篇	当前	目标	前置
17 内核追踪	1205 行	≥1200 行	14

17 必须包含：ftrace function_graph 真实输出片段、bpftrace 一行脚本追踪 connect 延迟、与 linux-net/23-tracing-toolkit 的交叉引用边界（本系列偏 SRE 排障路径，不重复 sk_buff 解剖）。

第四批（治理层，系列价值核心）— 18→19→20→21→22

篇	当前	目标	写作顺序	状态
18 SLO 工程	1400+ 行	≥1400 行	1	✅ 已完成
19 告警体系	1404 行	≥1400 行	2（依赖 18）	✅ 已完成
20 存储与成本	1401 行	≥1400 行	3（可与 19 并行）	✅ 已完成
21 多租户与安全	1203 行	≥1200 行	4（依赖 20）	✅ 已完成
22 混沌工程	1206 行	≥1200 行	5（依赖 18、19）	✅ 已完成

18 必须补全（WRITING_PLAN §18）： - Google SRE 多窗口多燃烧率 PromQL 规则（在本地 Prometheus 跑通） - 错误预算消耗曲线 SVG（数据来自合成 SLI 或公开案例，标注来源） - 与 PG 内核系列 21-monitoring 的联动：DB 层 SLI 如何映射到服务 SLO

19 必须补全： - 完整 alertmanager.yml 示例：route + inhibit + receiver（钉钉/Slack webhook 二选一，实际测通） - 告警风暴时序图 Mermaid - 「Page 只用于 SLO Burn Rate」的分级模板

20 必须补全： - 四类数据（Metrics/Logs/Traces/Profiles）成本占比的估算 worksheet（假设 200 服务规模，每个假设写清） - Loki/Mimir/Tempo retention 配置的 before/after 存储占用（本机或 minikube 实测）

第五批（系列收束）— 23→24→25

篇	当前	目标	前置	状态
23 中国厂商对比	1403 行	≥1400 行	06–16 深化完成	✅ 已完成
24 事故复盘剧本	1404 行	≥1400 行	01–22	✅ 已完成
25 自建 vs 托管	1402 行	≥1400 行	20、23	✅ 已完成

24 必须是一条完整虚构但可复现的排障链路：指标异常 → Logs 线索 → Trace 定位 → Profile 确认 → 变更关联 → 修复验证。引用前面各篇的具体工具命令，不发明工具行为。

三、依赖关系图

04 ─┬─→ 09 ──┐
    │         │
05 ─┤─→ 10 ──┤
    │         │
    └─→ 20 ───┤
              │
17（依赖 14） │
              ├─→ 18 → 19 → 22 ─┐
              │                  │
              └──────────────────┤
                                 ↓
                           23 → 25
                                 ↑
                           24 ───┘

四、阅读路径（深化完成后）

读者目标	路径	篇数
系统入门	01→02→03→04→05	5
三大支柱选型	06→08→09→10→11	5
SLO 与事故治理	18→19→20→22→24	5
国内选型	23→25	2
完整通读	01→…→25	25

五、来源台账（治理层重点）

A 级

Google SRE Workbook, Chapter 5（SLO 告警）
Prometheus Alertmanager 官方文档（routing/inhibition）
OpenTelemetry Specification（Semantic Conventions、Sampling）
各组件官方文档：Loki、Tempo、Mimir、VictoriaMetrics

B 级

Charity Majors «Observability Engineering»
Grafana Labs 工程博客（Mimir 成本、Tempo 采样）

禁止

无版本上下文的厂商营销页单独支撑对比结论
未实测的性能倍数写进正文

六、实验台账（治理批次）

篇	实验	环境
04	高基数 label 压测 Prometheus	本机 Docker Compose
18	Multi-burn-rate 告警规则触发	Prometheus + Alertmanager
19	grouping/inhibit 规则验证	同上
20	Loki retention 前后磁盘占用	minikube + Loki
10	head vs tail sampling 存储量	OTel Collector + Tempo

每次 benchmark 交代：CPU、内存、OS、组件版本、负载 QPS、采样率、运行轮次（≥3，取中位数）。

七、验收标准（每篇深化后）

按 WRITING_GUIDE.md 第十三节，外加：

行数 ≥ 该篇目标（见上表）
至少 1 张 Mermaid 或 SVG
至少 1 段真实命令输出（标注删减）
关键结论有 A 级来源
文末上一篇/下一篇链接正确
与 PG 内核 21/23、eBPF 14 的交叉引用已加（如适用）
python scripts/build_markdown.py <path> 通过

八、与其他系列的联动

已有系列	联动方式
`db/postgresql-kernel/21-monitoring`	SLO 章引用 PG 监控维度
`db/postgresql-kernel/23-perf-investigation`	事故剧本章引用五层调查链
`ebpf/14-bpf-debugging`	内核追踪章引用 eBPF 工具
`linux-net/23-tracing-toolkit`	17 篇引用但不重复 netfilter 路径

九、边界承诺

承诺

治理层（18–22）以「可操作的决策链」组织，不只罗列工具
成本数字来自实测或明确标注的假设模型
中国厂商对比（23）写能力边界与 lock-in 风险，不做排名榜

不承诺

云厂商实时定价表
替读者做最终采购决策

十、时间线与下一步

~~深化 04、05~~ → ~~09、10、17~~ → ~~18–22~~ → ~~23–25~~（全部完成，2026-06-18）
系列 index 推荐阅读路径 01→04→05、18→19→22→24、23→25 均已可用
后续维护：厂商定价与产品功能以官方文档为准，正文用假设模型与 POC 清单

规划版本：v2，2026-06-18（全系列深化完成） 关联文档：WRITING_PLAN.md（逐篇详细大纲）、index.md（读者入口）

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / observability

可观测性工程

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理，面向中国工程团队的可观测性系统化手册。全 25 篇。