2026-04-22 | architecture · ai-infra | #llm #infra #observability #langsmith #langfuse #helicone #openllmetry #opentelemetry #ragas #phoenix #gpu-metrics #llm-eval
面向 LLM、RAG 与 Agent 系统的可观测性工程实战;覆盖 Metrics、Logs、Traces、Token 成本、幻觉评估、Langfuse / LangSmith / Phoenix / OpenLLMetry 与 OpenTelemetry GenAI 语义约定。
2026-06-18 | architecture · security | #agent #audit #attribution #opentelemetry #pii #compliance
Agent 最小审计字段集、OpenTelemetry span 建模 tool 调用、PII 清洗点,以及与 PAM/IGA 审计和零信任可观测性的衔接。
2026-06-11 | architecture · observability | #instrumentation #sampling #cardinality #opentelemetry #prometheus #cardinality-explosion #tail-sampling #head-sampling #cost-model
埋点不是多加几行日志,而是一整套关于什么该记、什么该采样、什么该丢弃的工程决策体系。从信号分层、基数控制、采样策略到落地规范与工程坑点,给出可操作的埋点治理框架。
2026-06-11 | architecture · observability | #tracing #jaeger #tempo #skywalking #zipkin #opentelemetry #sampling #tracecontext #tail-sampling #propagation
拆解 Jaeger、Tempo、SkyWalking 架构差异与采样策略(头部/尾部/自适应),给出 W3C TraceContext 传播、OpenTelemetry tail_sampling 配置与选型框架。
2026-06-18 | architecture · observability | #china #arms #aom #guance #nightingale #deepflow #cloud #vendor-selection #opentelemetry #tco
中国可观测性市场三条技术路线拆解:云托管、创业 SaaS、开源自建。对照本系列开源栈深度篇,给出场景匹配、锁定风险、信创约束与 TCO 假设模型,不做厂商排名或报价表。
2026-06-18 | architecture · observability | #self-hosted #saas #tco #lgtm #grafana-cloud #opentelemetry #hybrid #migration
自建 LGTM 与托管 SaaS 不是二选一。给出 TCO 假设模型、规模临界点、混合迁移与五维决策矩阵,交叉引用存储成本篇与中国厂商篇,不列会过期的厂商报价表。
2026-04-22 | architecture · observability | #observability #opentelemetry #prometheus #ebpf #slo #tracing #profiling #logs #metrics
从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。
2026-04-22 | architecture · observability | #opentelemetry #otlp #collector #semantic-conventions #tracing #metrics #logs #otel-sdk #tail-sampling
从 OpenTracing 与 OpenCensus 合并到今天的 OTel v1 稳定版,梳理 SDK 生命周期、Collector 流水线、OTLP 协议与 Semantic Conventions 的工程意义,并结合阿里 ARMS、观测云、夜莺等国内实践,给出多租户与尾采样的落地建议。
2026-04-22 | architecture · observability | #observability #metrics #logs #traces #profiling #events #opentelemetry #prometheus #jaeger #grafana
从控制论到云原生:拆解可观测性的五大信号支柱,对比监控与可观测性的本质区别,梳理开源/商业/SaaS 分类,以及国内互联网公司三大支柱落地现状与典型工程坑点。
2026-04-22 | architecture · observability | #monitoring #observability #nagios #zabbix #prometheus #opentelemetry #graphite #statsd #grafana #push-pull
监控与可观测性不是新旧迭代,而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线,对比 push/pull 模型、数据模型差异,以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。
2026-03-14 | linux · io_uring · epoll · debugging | #linux #io_uring #epoll #debugging #bpftrace #perf #gdb #rr #sanitizer #observability #opentelemetry #profiling
一份面向线上事故的事件驱动代码排障手册:从症状收敛、strace/eBPF/perf 逐层下钻,到 OpenTelemetry 集成与 Sanitizer 离线复盘。