distributed-tracing 标签归档 | 土法炼钢兴趣小组的算法知识备份

【系统架构设计】延迟分析：从 P50 到 P999 的全链路追踪

2026-04-13 | architecture | #latency #tail-latency #P99 #fan-out #coordinated-omission #distributed-tracing

尾延迟为什么比平均延迟重要 100 倍？Fan-out 场景下延迟放大的数学本质是什么？本文从百分位数学出发，拆解 Jeff Dean 的 Tail at Scale 论文核心思想，深入分析协调省略陷阱、延迟预算分解、对冲请求与绑定请求策略，结合 OpenTelemetry 全链路追踪和 HDR Histogram 实战，给出可落地的延迟优化方法论。

【系统架构设计】分布式追踪：OpenTelemetry 与全链路可观测

2026-04-13 | architecture | #distributed-tracing #OpenTelemetry #Jaeger #Tempo #sampling #W3C-Trace-Context

分布式追踪的采样率设多少？100% 采样的成本和收益分别是什么？本文从 Google Dapper 论文的 Trace/Span 模型出发，拆解 W3C Trace Context 标准的传播机制，深入 OpenTelemetry SDK、Collector、Exporter 三层架构，对比 Jaeger 与 Tempo 的存储设计差异，讨论头部采样、尾部采样与自适应采样的工程取舍，结合 Uber 迁移 OpenTelemetry 的实战经验，给出追踪数据驱动的自动拓扑发现与关键路径分析方法。