prometheus 标签归档 | 土法炼钢兴趣小组的算法知识备份

【可观测性工程】埋点哲学：粒度、采样、基数爆炸与成本模型

2026-06-11 | architecture · observability | #instrumentation #sampling #cardinality #opentelemetry #prometheus #cardinality-explosion #tail-sampling #head-sampling #cost-model

埋点不是多加几行日志，而是一整套关于什么该记、什么该采样、什么该丢弃的工程决策体系。从信号分层、基数控制、采样策略到落地规范与工程坑点，给出可操作的埋点治理框架。

【可观测性工程】数据模型：时间序列、日志、Span、Profile 的内部表达

2026-06-11 | architecture · observability | #data-model #tsdb #prometheus #loki #tempo #jaeger #pprof #flamegraph #compression #gorilla #zstd #cost-model

拆解 Metrics、Logs、Traces、Profiles、Events 五大支柱在磁盘和内存中的内部数据模型。字段级对照 Prometheus TSDB block、Loki chunk、Tempo block，给出带假设的存储成本估算公式，并解释索引策略如何决定账单与查询延迟。

【可观测性工程】SLO 工程：错误预算、Burn Rate、多窗口多燃烧率告警

2026-06-18 | architecture · observability | #slo #sli #error-budget #burn-rate #sre #google-sre #prometheus #alerting #recording-rules

SLO 不是定几个 99.9% 的数字，而是连接业务需求与工程决策的治理机制。从 SLI 定义、错误预算计算到 Google SRE 多窗口多燃烧率 PromQL 规则，并说明 DB 层 SLI 如何映射到服务 SLO。

【可观测性工程】告警体系：Alertmanager、PagerDuty、OnCall 与分级抑制

2026-06-18 | architecture · observability | #alertmanager #pagerduty #oncall #alerting #prometheus #slo #escalation #inhibition

建一套不让人崩溃的告警体系。从 Prometheus Alertmanager 的分组/抑制/静默三元组，到 PagerDuty 排班与升级策略，到分级告警的设计模板与告警质量持续治理。

【可观测性工程】存储与成本：采样、下采样、冷热分层、对象存储

2026-06-18 | architecture · observability | #cost #storage #sampling #downsampling #retention #tiered-storage #compression #loki #prometheus #tempo #mimir

可观测性数据量持续增长，存储成本常超过计算成本。拆解四大支柱的成本结构、采样与保留期策略、冷热分层架构，以及带显式假设的成本估算 worksheet。

【可观测性工程】真实事故复盘剧本：从指标抖动到根因的全链路追查

2026-06-18 | architecture · observability | #incident-response #debugging #playbook #slo #prometheus #tempo #loki #profiling #ebpf #events

虚构但可复现的 checkout 服务事故全链路：SLO Burn Rate 告警后按 Golden Minute→Metrics→Traces→Logs→Profile→Events 五阶递进排障，含 PromQL/LogQL/kubectl 命令与三条分级剧本，交叉引用系列 01–22。

可观测性工程

2026-04-22 | architecture · observability | #observability #opentelemetry #prometheus #ebpf #slo #tracing #profiling #logs #metrics

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理，面向中国工程团队的可观测性系统化手册。全 25 篇。

【PG 内核】监控体系与告警设计：从内核机制出发定义该监控什么

2026-06-16 | database · kernel | #postgresql #pg-kernel #monitoring #observability #pg-stat-statements #pg-stat-activity #pg-locks #pg-stat-replication #autovacuum #prometheus #alerting #pgbadger #pgcenter

不从 Grafana 模板照抄，而是从 PG 内核机制推导出必须监控的六个维度：连接与 wait_event、存储膨胀与 XID wraparound、WAL 与复制延迟、查询性能突变、锁等待链、以及 shared_buffers 命中率骗局。每个维度配具体 SQL 和指标解读，告警阈值给出内核依据而非拍脑袋数字，同时盘点 pg_stat_statements queryid 冲突、track_io_timing 开销、pg_stat_activity 自身代价等监控工具本身的陷阱。

【可观测性工程】指标体系设计：USE、RED、Golden Signals 与业务 KPI

2026-04-22 | architecture · observability | #metrics #use-method #red-method #golden-signals #prometheus #cardinality #histogram #summary #slo #kpi

USE 方法论适用于资源，RED 方法论适用于请求，Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发，构建覆盖资源→服务→业务的完整指标体系，并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。

【可观测性工程】Metrics：Prometheus、VictoriaMetrics、Thanos、Mimir、M3

2026-04-22 | architecture · observability | #prometheus #victoriametrics #thanos #mimir #m3db #promql #remote-write #tsdb #metrics #observability

从 Prometheus 架构与数据模型出发，系统梳理 Remote Write、PromQL 进阶、Thanos 全局聚合、Mimir 多租户、VictoriaMetrics 性能、M3DB 原理，以及五者在大规模生产场景下的对比矩阵与迁移实践。

【可观测性工程】可观测性全景：Metrics、Logs、Traces、Profiles、Events 五大支柱

2026-04-22 | architecture · observability | #observability #metrics #logs #traces #profiling #events #opentelemetry #prometheus #jaeger #grafana

从控制论到云原生：拆解可观测性的五大信号支柱，对比监控与可观测性的本质区别，梳理开源/商业/SaaS 分类，以及国内互联网公司三大支柱落地现状与典型工程坑点。

【可观测性工程】可观测性 vs 监控：从 Zabbix/Nagios 到 OpenTelemetry 的二十年

2026-04-22 | architecture · observability | #monitoring #observability #nagios #zabbix #prometheus #opentelemetry #graphite #statsd #grafana #push-pull

监控与可观测性不是新旧迭代，而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线，对比 push/pull 模型、数据模型差异，以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。

【可观测性工程】时序数据库内核：TSM、TSI、倒排索引与 Gorilla 压缩

2026-04-22 | architecture · observability | #tsdb #prometheus #influxdb #tsm #tsi #gorilla #victoriametrics #clickhouse #compression #metrics

深入时序数据库的存储内核：Prometheus TSDB 的 WAL 与块管理、InfluxDB 的 TSM 引擎与 TSI 倒排索引、Gorilla 压缩算法的数学原理、VictoriaMetrics mergeset 架构、ClickHouse MergeTree 作为 metrics 后端，以及国内大厂在 series churn 和 compaction 风暴上踩过的坑。

【存储工程】时序存储引擎

2025-09-16 | storage | #timeseries #tsdb #prometheus #influxdb #timescaledb #gorilla-compression

监控系统每秒钟从数万台机器上采集 CPU 使用率、内存占用、磁盘 IOPS、网络流量；物联网（IoT）网关把传感器温度、湿度、振动频率汇聚到云端；金融交易系统以毫秒级粒度记录每一笔报价和成交。这些数据有一个共同特征——每条记录都带有一个时间戳（Timestamp），按时间顺序源源不断地涌入，几乎只追加（Append-O…

【网络工程】网络性能监控体系：指标、探针与告警

2025-08-03 | network | #network-monitoring #prometheus #blackbox-exporter #smokeping #snmp #netflow #observability

网络监控不是简单的 ping 和带宽图表。本文系统讲解网络 RED 指标体系、Blackbox Exporter 探针监控、Smokeping 延迟基线、SNMP 与流量采集、NetFlow/sFlow 分析、网络告警策略设计、Dashboard 构建方法论，以及端到端网络可观测性的工程实践。

时序数据压缩：Gorilla 编码与 Delta-of-Delta

2026-05-13 | algorithms | #time-series #gorilla #delta-encoding #prometheus #influxdb #compression

Facebook 的 Gorilla 论文改变了时序数据库的压缩格局。