【可观测性工程】真实事故复盘剧本:从指标抖动到根因的全链路追查
虚构但可复现的 checkout 服务事故全链路:SLO Burn Rate 告警后按 Golden Minute→Metrics→Traces→Logs→Profile→Events 五阶递进排障,含 PromQL/LogQL/kubectl 命令与三条分级剧本,交叉引用系列 01–22。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 10 篇文章 · 返回首页
虚构但可复现的 checkout 服务事故全链路:SLO Burn Rate 告警后按 Golden Minute→Metrics→Traces→Logs→Profile→Events 五阶递进排障,含 PromQL/LogQL/kubectl 命令与三条分级剧本,交叉引用系列 01–22。
把 02-03 的理论落地为可操作的编程指南——unbounded memory access、variable-length read、pointer arithmetic on scalar、循环上界推断失败、helper 参数类型不匹配等 18 种常见 verifier 错误的根因分析、最小复现与正确写法。
从 verifier log 的级别控制(log_level 1/2/自选寄存器)出发,覆盖 bpftool prog dump xlated/jited 的反汇编、bpftool map dump 运行时检查、bpftool btf 类型查阅、BPF selftests 结构与编写,以及生产环境下的 BPF 排障方法论。
MLIR 编译开发的实用工具箱:mlir-opt 的流水线诊断、IR dump 与 Pass 前后对比、mlir-tblgen 的使用方法、Pass 崩溃定位与 reproducer 生成、性能剖析与 IR 可视化工具的完整操作指南。
CDN 故障排查是运维工程中的高频场景。本文系统覆盖缓存未命中分析、回源异常诊断、CDN 响应头解读、性能监控体系搭建四个维度,提供从现象到根因的排查方法论。
系统讲解 HTTP 调试的完整工具链:curl 高级用法、Chrome DevTools Network 面板深度使用、mitmproxy 的拦截与改写、TTFB 分解与性能分析方法论。覆盖从开发调试到线上排查的全场景。
一份面向线上事故的事件驱动代码排障手册:从症状收敛、strace/eBPF/perf 逐层下钻,到 OpenTelemetry 集成与 Sanitizer 离线复盘。
链表节点删除的优雅实现与常见错误:一个真实案例的调试经历与经验总结
SQPOLL 烧 CPU、fixed buffer 内存泄漏、CQE overflow 丢事件、内核版本兼容性噩梦——io_uring 在生产中踩过的坑,逐个拆解。
一个在 x86 上跑了两年的内核模块,迁移到 ARM 后开始随机丢数据。三天的调试过程教会了我 smp_wmb() 的真正含义。附 Linux 内核屏障 API 完整分类与 x86/ARM 编译产物对比。