【可观测性工程】真实事故复盘剧本:从指标抖动到根因的全链路追查
从 Grafana 上 p99 延迟飙升到定位具体代码行——拆解事故排障的标准操作流程:Golden Minute、Metric→Trace→Log→Profile→Kernel 的五阶递进、缓解优先原则与事后改进。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 5 篇文章 · 返回首页
从 Grafana 上 p99 延迟飙升到定位具体代码行——拆解事故排障的标准操作流程:Golden Minute、Metric→Trace→Log→Profile→Kernel 的五阶递进、缓解优先原则与事后改进。
从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。
从日志场景分类出发,深入对比 Elasticsearch/OpenSearch、Grafana Loki、ClickHouse、OpenObserve 四大方案在全文检索、写入吞吐、存储成本、多租户和运维复杂度上的本质差异,结合 B 站、知乎 ClickHouse 日志平台实践,给出选型决策矩阵与工程坑点。
从 OpenTracing 与 OpenCensus 合并到今天的 OTel v1 稳定版,梳理 SDK 生命周期、Collector 流水线、OTLP 协议与 Semantic Conventions 的工程意义,并结合阿里 ARMS、观测云、夜莺等国内实践,给出多租户与尾采样的落地建议。
从控制论到云原生:拆解可观测性的五大信号支柱,对比监控与可观测性的本质区别,梳理开源/商业/SaaS 分类,以及国内互联网公司三大支柱落地现状与典型工程坑点。