【可观测性工程】指标体系设计:USE、RED、Golden Signals 与业务 KPI
USE 方法论适用于资源,RED 方法论适用于请求,Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发,构建覆盖资源→服务→业务的完整指标体系,并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 3 篇文章 · 返回首页
USE 方法论适用于资源,RED 方法论适用于请求,Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发,构建覆盖资源→服务→业务的完整指标体系,并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。
Prometheus 的 pull 模型在小规模集群中简洁高效,但当目标实例超过十万、指标基数突破千万时,单实例架构迅速遇到瓶颈。本文从时序数据库的存储原理出发,拆解 Prometheus、VictoriaMetrics、Thanos 的联邦与长期存储架构,分析基数爆炸的成因与治理手段,结合 USE、RED、Golden Signals 三种方法论,给出大规模指标监控体系的工程设计路径。
如何用仅仅 12KB 的内存估计十亿级别的基数?从 Flajolet-Martin 的直觉到 HyperLogLog 的数学证明,概率数据结构的精妙令人叹服。