2026-06-11 | architecture · observability | #instrumentation #sampling #cardinality #opentelemetry #prometheus #cardinality-explosion #tail-sampling #head-sampling #cost-model
埋点不是多加几行日志,而是一整套关于什么该记、什么该采样、什么该丢弃的工程决策体系。从信号分层、基数控制、采样策略到落地规范与工程坑点,给出可操作的埋点治理框架。
2026-06-11 | architecture · observability | #data-model #tsdb #prometheus #loki #tempo #jaeger #pprof #flamegraph #compression #gorilla #zstd
拆解 Metrics、Logs、Traces、Profiles、Events 五大支柱在磁盘和内存中的内部数据模型。理解为什么 Loki 比 ES 省 5-10 倍存储、Tempo 为什么不索引 Span attribute、火焰图的本质是栈合并。
2026-06-11 | architecture · observability | #fluentbit #vector #logstash #cribl #log-pipeline #kubernetes #daemonset #log-collection
日志采集和管道是整个可观测性栈中最容易被忽视的一层。拆解 Fluent Bit、Vector、Logstash、Cribl 四种方案的架构、性能特征、可靠性设计和工程取舍,给出 K8s 环境下的选型决策框架。
2026-06-11 | architecture · observability | #tracing #jaeger #tempo #skywalking #opentelemetry #sampling #tracecontext #distributed-tracing
拆解 Jaeger、Tempo、SkyWalking 三种开源分布式追踪方案的架构本质与工程取舍:全索引 vs 无索引、采样策略(头部/尾部/自适应)、传播协议(W3C TraceContext)的断裂诊断,以及选型决策框架。
2026-06-11 | architecture · observability | #kernel #ftrace #kprobe #uprobe #tracepoint #bpftrace #perf #ebpf #linux #tracing
当用户态观测工具无法定位问题时,深入 Linux 内核追踪层。拆解 ftrace、kprobe、uprobe、tracepoint、bpftrace 的适用场景、生产安全边界和实战案例。
2026-06-11 | architecture · observability | #slo #sli #error-budget #burn-rate #sre #google-sre #prometheus #alerting
SLO 不是定几个 99.9% 的数字,而是连接业务需求与工程决策的治理机制。拆解 SLI 选择、错误预算计算、Burn Rate 告警公式,以及 SLO 文化如何在组织中落地。
2026-06-11 | architecture · observability | #alertmanager #pagerduty #oncall #alerting #prometheus #slo #escalation #inhibition
建一套不让人崩溃的告警体系。从 Prometheus Alertmanager 的分组/抑制/静默三元组,到 PagerDuty 排班与升级策略,到分级告警的设计模板与告警质量持续治理。
2026-06-11 | architecture · observability | #cost #storage #sampling #downsampling #retention #tiered-storage #compression #loki #prometheus #tempo
可观测性数据量以每年 2-3 倍的速度增长,存储成本很快就超过计算成本。拆解五大支柱的成本结构、采样是最大的杠杆、冷热分层与压缩的实战策略,以及降本路径图。
2026-06-11 | architecture · observability | #multi-tenancy #pii #data-isolation #label-governance #loki #mimir #grafana #security
当可观测性平台从单团队 Grafana 成长为全公司共享基础设施,多租户的数据隔离、标签治理、PII 清洗和成本分摊全部变成刚需。拆解软硬隔离方案的实际工程实现。
2026-06-11 | architecture · observability | #chaos-engineering #chaosblade #chaos-mesh #litmuschaos #resilience #fault-injection #slo
混沌工程的价值不是'找到 bug',而是验证'你的可观测性能不能发现这类故障'。从六步实验法到 ChaosBlade/Chaos Mesh 的生产实践,到爆炸半径控制与可观测性改进闭环。
2026-06-11 | architecture · observability | #china #arms #aom #guance #nightingale #deepflow #cloud #vendor-selection
中国可观测性市场在 2024-2026 年快速分化。拆解三大云厂商托管方案(ARMS/APM/AOM)与三大创业/开源方案(观测云/夜莺/DeepFlow)的技术架构、产品定位与适合场景。
2026-06-11 | architecture · observability | #incident-response #debugging #troubleshooting #playbook #slo #metrics #traces #logs #profiling
从 Grafana 上 p99 延迟飙升到定位具体代码行——拆解事故排障的标准操作流程:Golden Minute、Metric→Trace→Log→Profile→Kernel 的五阶递进、缓解优先原则与事后改进。
2026-06-11 | architecture · observability | #self-hosted #saas #tco #lgtm #grafana-cloud #arms #datadog #opentelemetry #build-vs-buy
OpenTelemetry 成熟之后,自建可观测性栈不再只是大厂的选项。拆解自建(LGTM 栈)与托管(Grafana Cloud / ARMS / Datadog)的 TCO 对比模型、规模临界点、混合方案与迁移路径。
2026-04-22 | architecture · observability | #observability #opentelemetry #prometheus #ebpf #slo #tracing #profiling #logs #metrics
从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。
2026-04-22 | architecture · observability | #network-observability #cilium #hubble #tetragon #pixie #deepflow #ebpf #bpftrace #kfree-skb-reason #flow-log #service-topology #tls-decryption #http2
从 L3/L4/L7 三层观测视角出发,讲 eBPF socket filter / tc / XDP 数据采集与 Cilium Hubble 流日志、Tetragon 安全可观测、Pixie 协议自动解析、DeepFlow 架构;展开 bpftrace + kfree_skb_reason 的内核丢包定位、TLS 解密、HTTP/2 解析与服务拓扑自动发现。
2026-04-22 | architecture · observability | #metrics #use-method #red-method #golden-signals #prometheus #cardinality #histogram #summary #slo #kpi
USE 方法论适用于资源,RED 方法论适用于请求,Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发,构建覆盖资源→服务→业务的完整指标体系,并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。
2026-04-22 | architecture · observability | #prometheus #victoriametrics #thanos #mimir #m3db #promql #remote-write #tsdb #metrics #observability
从 Prometheus 架构与数据模型出发,系统梳理 Remote Write、PromQL 进阶、Thanos 全局聚合、Mimir 多租户、VictoriaMetrics 性能、M3DB 原理,以及五者在大规模生产场景下的对比矩阵与迁移实践。
2026-04-22 | architecture · observability | #loki #elasticsearch #clickhouse #openobserve #logs #logql #observability #quickwit #signoz
从日志场景分类出发,深入对比 Elasticsearch/OpenSearch、Grafana Loki、ClickHouse、OpenObserve 四大方案在全文检索、写入吞吐、存储成本、多租户和运维复杂度上的本质差异,结合 B 站、知乎 ClickHouse 日志平台实践,给出选型决策矩阵与工程坑点。
2026-04-22 | architecture · observability | #opentelemetry #otlp #collector #semantic-conventions #tracing #metrics #logs #otel-sdk #tail-sampling
从 OpenTracing 与 OpenCensus 合并到今天的 OTel v1 稳定版,梳理 SDK 生命周期、Collector 流水线、OTLP 协议与 Semantic Conventions 的工程意义,并结合阿里 ARMS、观测云、夜莺等国内实践,给出多租户与尾采样的落地建议。
2026-04-22 | architecture · observability | #continuous-profiling #parca #pyroscope #beyla #ebpf #flamegraph #pprof #observability #performance
深入剖析持续性能分析(Continuous Profiling)的原理、架构与落地实践,覆盖 Parca、Pyroscope、Grafana Beyla 三大主流方案,包含 eBPF 采样、符号解析、火焰图、差异分析以及字节跳动、美团的生产案例与工程坑点。
2026-04-22 | architecture · observability | #observability #metrics #logs #traces #profiling #events #opentelemetry #prometheus #jaeger #grafana
从控制论到云原生:拆解可观测性的五大信号支柱,对比监控与可观测性的本质区别,梳理开源/商业/SaaS 分类,以及国内互联网公司三大支柱落地现状与典型工程坑点。
2026-04-22 | architecture · observability | #monitoring #observability #nagios #zabbix #prometheus #opentelemetry #graphite #statsd #grafana #push-pull
监控与可观测性不是新旧迭代,而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线,对比 push/pull 模型、数据模型差异,以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。
2026-04-22 | architecture · observability | #tsdb #prometheus #influxdb #tsm #tsi #gorilla #victoriametrics #clickhouse #compression #metrics
深入时序数据库的存储内核:Prometheus TSDB 的 WAL 与块管理、InfluxDB 的 TSM 引擎与 TSI 倒排索引、Gorilla 压缩算法的数学原理、VictoriaMetrics mergeset 架构、ClickHouse MergeTree 作为 metrics 后端,以及国内大厂在 series churn 和 compaction 风暴上踩过的坑。
2026-04-22 | architecture · observability | #profiling #pprof #pyroscope #parca #async-profiler #jfr #ebpf #continuous-profiling #flamegraph #opentelemetry-profiles
从 CPU/heap/goroutine/lock/off-CPU 等 Profiling 种类出发,比较采样与插桩两类 profiler 的工作原理,深入 Go pprof、Java async-profiler/JFR、Python py-spy、Pyroscope、Parca eBPF Profiling,以及 OpenTelemetry Profiles 的最新进展,给出国内字节美团的真实落地经验与工程坑点。
2026-04-22 | architecture · observability | #events #cloudevents #kubernetes-events #grafana-annotations #change-management #argo-events #observability #incident-response
把 Events 作为可观测性第四/五支柱来讲:变更事件、K8s Events、业务事件的数据模型,CloudEvents CNCF 规范,Kubernetes Event Exporter,Grafana Annotations,Argo Events,以及如何把发布打点与 Traces/Metrics 关联,实现\"变更即根因\"的故障响应方法论。
2026-04-22 | architecture · observability | #ebpf #bcc #bpftrace #libbpf #co-re #btf #kprobe #uprobe #tracepoint #pixie #deepflow #observability #linux-kernel
eBPF 如何实现零侵入、内核级、低开销的可观测性:从 kprobe/uprobe/tracepoint/fentry 钩子机制,到 bcc 工具集、bpftrace 脚本语言、libbpf+CO-RE 可移植编程,再到 Pixie、DeepFlow、Grafana Beyla 等商业化工具,结合内核版本兼容性与生产部署实战。