opentelemetry 标签归档 | 土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】23：LLM 可观测性

面向 LLM、RAG 与 Agent 系统的可观测性工程实战；覆盖 Metrics、Logs、Traces、Token 成本、幻觉评估、Langfuse / LangSmith / Phoenix / OpenLLMetry 与 OpenTelemetry GenAI 语义约定。

Agent 最小审计字段集、OpenTelemetry span 建模 tool 调用、PII 清洗点，以及与 PAM/IGA 审计和零信任可观测性的衔接。

埋点不是多加几行日志，而是一整套关于什么该记、什么该采样、什么该丢弃的工程决策体系。从信号分层、基数控制、采样策略到落地规范与工程坑点，给出可操作的埋点治理框架。

拆解 Jaeger、Tempo、SkyWalking 架构差异与采样策略（头部/尾部/自适应），给出 W3C TraceContext 传播、OpenTelemetry tail_sampling 配置与选型框架。

中国可观测性市场三条技术路线拆解：云托管、创业 SaaS、开源自建。对照本系列开源栈深度篇，给出场景匹配、锁定风险、信创约束与 TCO 假设模型，不做厂商排名或报价表。

自建 LGTM 与托管 SaaS 不是二选一。给出 TCO 假设模型、规模临界点、混合迁移与五维决策矩阵，交叉引用存储成本篇与中国厂商篇，不列会过期的厂商报价表。

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理，面向中国工程团队的可观测性系统化手册。全 25 篇。

从 OpenTracing 与 OpenCensus 合并到今天的 OTel v1 稳定版，梳理 SDK 生命周期、Collector 流水线、OTLP 协议与 Semantic Conventions 的工程意义，并结合阿里 ARMS、观测云、夜莺等国内实践，给出多租户与尾采样的落地建议。

从控制论到云原生：拆解可观测性的五大信号支柱，对比监控与可观测性的本质区别，梳理开源/商业/SaaS 分类，以及国内互联网公司三大支柱落地现状与典型工程坑点。

监控与可观测性不是新旧迭代，而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线，对比 push/pull 模型、数据模型差异，以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。

一份面向线上事故的事件驱动代码排障手册：从症状收敛、strace/eBPF/perf 逐层下钻，到 OpenTelemetry 集成与 Sanitizer 离线复盘。