土法炼钢兴趣小组的算法知识备份

可观测性工程系列 · 深化写作计划

目录

可观测性工程系列 · 深化写作计划

状态:已全部完成(2026-06-18)。 25 篇正文均达到 DEEPENING_PLAN 目标行数。本文档保留作写作过程记录。

详细大纲见同目录 WRITING_PLAN.md;本文件聚焦当前草稿与发布标准的差距写作批次验收标准


一、为什么要写这份计划

可观测性系列 index 已声明 25 篇,目录结构完整。但 2026-06 审阅显示:

状态 篇目 典型行数 备注
发布级 01–25 全系列 826–1761 2026-06-18 深化批次全部达标

本计划目标:按依赖关系把 13 篇草稿深化到与 01–03 同等的发布标准,使 index 中的推荐阅读路径(尤其 01→04→0518→19→22→2423→25)全部可用。


二、深化优先级与写作批次

第一批(基础层,阻塞最多下游)— 04、05 ✅

当前 目标 阻塞 状态
04 埋点哲学 ≥1200 行 ≥1200 行 09、10、18、19、20
05 数据模型 ≥1200 行 ≥1200 行 09、10、20

04 必须补全的内容(大纲见 WRITING_PLAN §04): - 基数爆炸的真实数字:在本机 Prometheus 上构造高基数 label,记录 prometheus_tsdb_head_series 变化 - 三种采样策略的 PromQL / OTel Collector 配置片段(实际跑过) - 四象限决策树配 Mermaid + 至少 2 个真实坑点复盘

05 必须补全的内容(大纲见 WRITING_PLAN §05): - Prometheus TSDB block 结构 vs Loki chunk vs Tempo block 的字段级对照 - 引用本站 07-tsdb-internals 但不重复 Gorilla 细节 - 存储成本数量级估算公式(带假设,不编造厂商报价)

第二批(三大支柱补环)— 09、10 ✅

当前 目标 前置 状态
09 日志管道 ≥1200 行 ≥1200 行 08
10 Traces 栈 ≥1200 行 ≥1200 行 05、11

09 核心实验:Fluent Bit vs Vector 在相同 nginx access log 上的 CPU/内存/延迟(声明硬件与 QPS)。

10 核心实验:Jaeger 头部采样 vs Tempo 尾部采样在相同负载下的存储量对比;OpenTelemetry Collector tail_sampling processor 配置。

第三批(内核追踪收束)— 17

当前 目标 前置
17 内核追踪 1205 行 ≥1200 行 14

17 必须包含:ftrace function_graph 真实输出片段、bpftrace 一行脚本追踪 connect 延迟、与 linux-net/23-tracing-toolkit 的交叉引用边界(本系列偏 SRE 排障路径,不重复 sk_buff 解剖)。

第四批(治理层,系列价值核心)— 18→19→20→21→22

当前 目标 写作顺序 状态
18 SLO 工程 1400+ 行 ≥1400 行 1 ✅ 已完成
19 告警体系 1404 行 ≥1400 行 2(依赖 18) ✅ 已完成
20 存储与成本 1401 行 ≥1400 行 3(可与 19 并行) ✅ 已完成
21 多租户与安全 1203 行 ≥1200 行 4(依赖 20) ✅ 已完成
22 混沌工程 1206 行 ≥1200 行 5(依赖 18、19) ✅ 已完成

18 必须补全(WRITING_PLAN §18): - Google SRE 多窗口多燃烧率 PromQL 规则(在本地 Prometheus 跑通) - 错误预算消耗曲线 SVG(数据来自合成 SLI 或公开案例,标注来源) - 与 PG 内核系列 21-monitoring 的联动:DB 层 SLI 如何映射到服务 SLO

19 必须补全: - 完整 alertmanager.yml 示例:route + inhibit + receiver(钉钉/Slack webhook 二选一,实际测通) - 告警风暴时序图 Mermaid - 「Page 只用于 SLO Burn Rate」的分级模板

20 必须补全: - 四类数据(Metrics/Logs/Traces/Profiles)成本占比的估算 worksheet(假设 200 服务规模,每个假设写清) - Loki/Mimir/Tempo retention 配置的 before/after 存储占用(本机或 minikube 实测)

第五批(系列收束)— 23→24→25

当前 目标 前置 状态
23 中国厂商对比 1403 行 ≥1400 行 06–16 深化完成 ✅ 已完成
24 事故复盘剧本 1404 行 ≥1400 行 01–22 ✅ 已完成
25 自建 vs 托管 1402 行 ≥1400 行 20、23 ✅ 已完成

24 必须是一条完整虚构但可复现的排障链路:指标异常 → Logs 线索 → Trace 定位 → Profile 确认 → 变更关联 → 修复验证。引用前面各篇的具体工具命令,不发明工具行为。


三、依赖关系图

04 ─┬─→ 09 ──┐
    │         │
05 ─┤─→ 10 ──┤
    │         │
    └─→ 20 ───┤
              │
17(依赖 14) │
              ├─→ 18 → 19 → 22 ─┐
              │                  │
              └──────────────────┤
                                 ↓
                           23 → 25
                                 ↑
                           24 ───┘

四、阅读路径(深化完成后)

读者目标 路径 篇数
系统入门 01→02→03→04→05 5
三大支柱选型 06→08→09→10→11 5
SLO 与事故治理 18→19→20→22→24 5
国内选型 23→25 2
完整通读 01→…→25 25

五、来源台账(治理层重点)

A 级

B 级

禁止


六、实验台账(治理批次)

实验 环境
04 高基数 label 压测 Prometheus 本机 Docker Compose
18 Multi-burn-rate 告警规则触发 Prometheus + Alertmanager
19 grouping/inhibit 规则验证 同上
20 Loki retention 前后磁盘占用 minikube + Loki
10 head vs tail sampling 存储量 OTel Collector + Tempo

每次 benchmark 交代:CPU、内存、OS、组件版本、负载 QPS、采样率、运行轮次(≥3,取中位数)。


七、验收标准(每篇深化后)

WRITING_GUIDE.md 第十三节,外加:


八、与其他系列的联动

已有系列 联动方式
db/postgresql-kernel/21-monitoring SLO 章引用 PG 监控维度
db/postgresql-kernel/23-perf-investigation 事故剧本章引用五层调查链
ebpf/14-bpf-debugging 内核追踪章引用 eBPF 工具
linux-net/23-tracing-toolkit 17 篇引用但不重复 netfilter 路径

九、边界承诺

承诺

不承诺


十、时间线与下一步

  1. 深化 04、0509、10、1718–2223–25全部完成,2026-06-18
  2. 系列 index 推荐阅读路径 01→04→0518→19→22→2423→25 均已可用
  3. 后续维护:厂商定价与产品功能以官方文档为准,正文用假设模型与 POC 清单

规划版本:v2,2026-06-18(全系列深化完成) 关联文档:WRITING_PLAN.md(逐篇详细大纲)、index.md(读者入口)

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-22 · architecture / observability

可观测性工程

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。


By .