metrics 标签归档

共 7 篇文章 · 返回首页

可观测性工程

2026-04-22 | architecture · observability | #observability #opentelemetry #prometheus #ebpf #slo #tracing #profiling #logs #metrics

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理，面向中国工程团队的可观测性系统化手册。全 25 篇。

【系统架构设计】指标与监控架构：维度数据模型与基数爆炸

2026-04-13 | architecture | #metrics #Prometheus #VictoriaMetrics #Thanos #cardinality #USE #RED

Prometheus 的 pull 模型在小规模集群中简洁高效，但当目标实例超过十万、指标基数突破千万时，单实例架构迅速遇到瓶颈。本文从时序数据库的存储原理出发，拆解 Prometheus、VictoriaMetrics、Thanos 的联邦与长期存储架构，分析基数爆炸的成因与治理手段，结合 USE、RED、Golden Signals 三种方法论，给出大规模指标监控体系的工程设计路径。

【可观测性工程】指标体系设计：USE、RED、Golden Signals 与业务 KPI

2026-04-22 | architecture · observability | #metrics #use-method #red-method #golden-signals #prometheus #cardinality #histogram #summary #slo #kpi

USE 方法论适用于资源，RED 方法论适用于请求，Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发，构建覆盖资源→服务→业务的完整指标体系，并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。

【可观测性工程】Metrics：Prometheus、VictoriaMetrics、Thanos、Mimir、M3

2026-04-22 | architecture · observability | #prometheus #victoriametrics #thanos #mimir #m3db #promql #remote-write #tsdb #metrics #observability

从 Prometheus 架构与数据模型出发，系统梳理 Remote Write、PromQL 进阶、Thanos 全局聚合、Mimir 多租户、VictoriaMetrics 性能、M3DB 原理，以及五者在大规模生产场景下的对比矩阵与迁移实践。

【可观测性工程】OpenTelemetry 深入：SDK、Collector、语义约定与版本演进

2026-04-22 | architecture · observability | #opentelemetry #otlp #collector #semantic-conventions #tracing #metrics #logs #otel-sdk #tail-sampling

从 OpenTracing 与 OpenCensus 合并到今天的 OTel v1 稳定版，梳理 SDK 生命周期、Collector 流水线、OTLP 协议与 Semantic Conventions 的工程意义，并结合阿里 ARMS、观测云、夜莺等国内实践，给出多租户与尾采样的落地建议。

【可观测性工程】可观测性全景：Metrics、Logs、Traces、Profiles、Events 五大支柱

2026-04-22 | architecture · observability | #observability #metrics #logs #traces #profiling #events #opentelemetry #prometheus #jaeger #grafana

从控制论到云原生：拆解可观测性的五大信号支柱，对比监控与可观测性的本质区别，梳理开源/商业/SaaS 分类，以及国内互联网公司三大支柱落地现状与典型工程坑点。

【可观测性工程】时序数据库内核：TSM、TSI、倒排索引与 Gorilla 压缩

2026-04-22 | architecture · observability | #tsdb #prometheus #influxdb #tsm #tsi #gorilla #victoriametrics #clickhouse #compression #metrics

深入时序数据库的存储内核：Prometheus TSDB 的 WAL 与块管理、InfluxDB 的 TSM 引擎与 TSI 倒排索引、Gorilla 压缩算法的数学原理、VictoriaMetrics mergeset 架构、ClickHouse MergeTree 作为 metrics 后端，以及国内大厂在 series churn 和 compaction 风暴上踩过的坑。