【系统架构设计百科】延迟分析:从 P50 到 P999 的全链路追踪
尾延迟为什么比平均延迟重要 100 倍?Fan-out 场景下延迟放大的数学本质是什么?本文从百分位数学出发,拆解 Jeff Dean 的 Tail at Scale 论文核心思想,深入分析协调省略陷阱、延迟预算分解、对冲请求与绑定请求策略,结合 OpenTelemetry 全链路追踪和 HDR Histogram 实战,给出可落地的延迟优化方法论。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
尾延迟为什么比平均延迟重要 100 倍?Fan-out 场景下延迟放大的数学本质是什么?本文从百分位数学出发,拆解 Jeff Dean 的 Tail at Scale 论文核心思想,深入分析协调省略陷阱、延迟预算分解、对冲请求与绑定请求策略,结合 OpenTelemetry 全链路追踪和 HDR Histogram 实战,给出可落地的延迟优化方法论。
分布式追踪的采样率设多少?100% 采样的成本和收益分别是什么?本文从 Google Dapper 论文的 Trace/Span 模型出发,拆解 W3C Trace Context 标准的传播机制,深入 OpenTelemetry SDK、Collector、Exporter 三层架构,对比 Jaeger 与 Tempo 的存储设计差异,讨论头部采样、尾部采样与自适应采样的工程取舍,结合 Uber 迁移 OpenTelemetry 的实战经验,给出追踪数据驱动的自动拓扑发现与关键路径分析方法。