自建 vs 托管:OpenTelemetry 自建栈与 SaaS 的选型决策
Team A:Grafana Cloud,月订阅约 $2k(读者自填),2 名 SRE 不全职运维观测栈。Team B:自建 LGTM,机器约 $3k/月 + 0.5 FTE SRE,总 TCO 约 $10k/月(人力按团队月薪自填)。Team B 保留 180 天 Trace、自定义 PromQL、数据不出 VPC。
OpenTelemetry 成熟后,自建不再是超大厂专属——但人力与迁出成本常被低估。本文给 TCO 假设模型与决策矩阵,不列 Datadog/Grafana Cloud/ARMS 单价表(会过期)。成本公式延续 存储与成本;国内商业选项见 中国厂商对比。
一、连续谱,不是二元
flowchart LR
SaaS[全托管] --> Hybrid[混合]
Hybrid --> Self[全自建]
Hybrid --> SaaS
可组合:Metrics 托管 + Logs 自建;Traces 双写;Profile 按需 SaaS。
二、自建 LGTM 架构
2.1 组件对照
| 字母 | 组件 | 系列深度篇 |
|---|---|---|
| L | Loki | 08 Logs, 09 管道 |
| G | Grafana | 各篇 Dashboard |
| T | Tempo | 10 Traces |
| M | Mimir | 06 Prometheus, 07 TSDB |
中枢:11 OpenTelemetry Collector。
2.2 最小生产拓扑
3× (16 vCPU, 64GB RAM, 500GB SSD) + S3 兼容对象存储
Collector DaemonSet → Distributor → Ingester → Object Store
2.3 人力模型
| 阶段 | FTE | 内容 |
|---|---|---|
| 初始化 | 2–4 周 × 1–2 人 | 搭建、集成、规范 |
| 日常 | 0.3–0.5 FTE | 升级、容量、compaction |
| 事故 | 按需 | 管道阻塞、查询超时 |
三、托管架构抽象
托管方承担:升级、多租户隔离、baseline 安全补丁。你承担:埋点规范、埋点哲学、SLO 规则语义。
计费维度通常:Host 数、ingest GB、Active Series、保留期档位——读者向厂商索取计量样例,代入下文公式,不用本文虚构单价。
四、TCO 假设模型
4.1 总公式
\[TCO_{month} = C_{compute} + C_{storage} + C_{network} + C_{human} + C_{overage} + C_{training}\]
与 20-storage-cost §2 一致。
4.2 Scenario A(200 服务 / 5000 Pod)
| 假设 | 值 |
|---|---|
| QPS | 50000 |
| Log 行/请求 | 3 × 512B |
| Trace 采样 | 治理前 100% head |
| Span/请求 | 8 |
日增量公式见 20 篇 §2.2–2.3。
4.3 Scenario B(治理后)
| 杠杆 | 倍数 |
|---|---|
| Trace head 1% + tail error | ×0.05–0.15 |
| Log INFO 10% | ×0.3–0.4 |
| Retention 缩短(非 SLO) | ×0.5 |
4.4 规模临界点(工程判断)
| 规模 | 倾向 |
|---|---|
| <100 节点 | 托管省心 |
| 100–500 | POC 双写 |
| >500 或 >10 TiB log/day | 自建边际成本常更低 |
图示见 tco-comparison.svg。
4.5 代入模板
# 读者 worksheet(复制到表格)
C_storage_self = GiB_month × $/GiB-month × retention
C_storage_saas = ingest_GiB_day × 30 × $/GiB-ingest
C_human = FTE × $/month
TCO_self = C_compute + C_storage_self + C_human
TCO_saas = subscription + C_overage
五、五维决策矩阵
| 维度 | 倾向自建 | 混合 | 倾向托管 |
|---|---|---|---|
| 数据量 | >10 TiB/day | 1–10 | <1 |
| 团队 | ≥1 SRE | 0.3 FTE | 无 TSDB 经验 |
| 合规 | VPC 强约束 | 国内合同 | 无 |
| 查询 | 超大 PromQL | 偶发 | 标准 Dashboard |
| 预算 | CapEx | 混合 | OpEx |
计分:≥3 维自建 → LGTM POC;≥3 维托管 → SaaS POC;否则混合。
六、混合与渐进迁移
6.1 Collector fan-out
exporters:
prometheusremotewrite/mimir:
endpoint: http://mimir:9009/api/v1/push
otlphttp/grafana-cloud:
endpoint: https://otlp-gateway-prod.grafana.net/otlp
service:
pipelines:
metrics:
receivers: [otlp]
exporters: [prometheusremotewrite/mimir, otlphttp/grafana-cloud]6.2 迁移阶段
- 双写 30 天
- Grafana 数据源并行
- 告警切自建 Recording Rules
- 停 SaaS 写入(保留只读备)
反向迁移同理。
七、与治理层联动
- 18-slo:SLI 数据 retention 不可短于 SLO 窗口
- 19-alerting:Alertmanager HA 自建需 3 副本
- 20-storage-cost:降本杠杆顺序
- 21-multi-tenancy:托管多租户 vs Mimir tenant
- 23-china-vendors:国内托管选项
八、自建收益与代价
| 收益 | 代价 |
|---|---|
| 数据自主 | compaction/WAL 运维 |
| 无限保留(成本允许) | 0.3–0.5 FTE |
| 自定义查询 | 安全补丁自负 |
| 合规 VPC | 容量规划 |
九、托管收益与代价
| 收益 | 代价 |
|---|---|
| 低初始人力 | 超额费非线性 |
| 快速上线 | 查询/保留上限 |
| 含升级 | 迁出 PB 级慢 |
十、POC 设计(30 天)
| 周 | 任务 |
|---|---|
| W1 | 双写 + 采样对齐 |
| W2 | Dashboard/告警对等 |
| W3 | 故障注入 24-playbook |
| W4 | TCO 填表 + 决策 |
十一、工程坑点
坑点 1
现象:签合同前未确认默认保留期——上线后发现仅 7 天。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 2
现象:未做 Trace 数据量 POC——按数据量计费时账单超预期。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 3
现象:私有化部署内核版本不支持 eBPF——DeepFlow 功能降级。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 4
现象:以为 OTel 兼容等于可无缝迁出——专有 attribute 未映射。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 5
现象:多租户未配 hard limit——单租户打爆共享存储。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 6
现象:Java Agent 与 OTel SDK 双埋点——存储翻倍。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 7
现象:告警直接 Page CPU 阈值——与 SLO 脱节。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 8
现象:未测迁出 API 吞吐——PB 级导出需数月。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 9
现象:信创环境未 POC Agent——麒麟内核 BTF 缺失。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 10
现象:Dashboard 依赖厂商专有查询——锁定查询层。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 11
现象:采样率在控制台改错——0 与 0.01 混淆。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 12
现象:双写 Collector 单实例——下游慢拖垮全局。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 13
现象:未记录计量口径——账单争议无证据。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 14
现象:只用 demo 环境评估——与生产流量模型不符。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 15
现象:忽略跨 AZ 流量费——对象存储 egress 隐性成本。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 16
现象:Runbook 链到过期 Confluence——on-call 无效。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 17
现象:Game Day 未演练 Trace 采样上调——事故时无慢请求样本。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 18
现象:PII 未在采集层清洗——等保审计失败。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 19
现象:混沌实验未对照 SLO——告警盲区未发现。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
坑点 20
现象:自建 Compaction 无告警——查询超时后才发现。
根因:选型或治理流程跳过 POC/合同/Runbook 环节。
修复:纳入落地清单;事故后写入 reliability backlog。
十二、落地清单
| # | 检查项 | 负责人 | 状态 |
|---|---|---|---|
| 1 | 是否列出数据出境/等保/信创硬约束? | SRE/架构 | 待办 |
| 2 | 是否完成 OTLP 双写 30 天 POC? | SRE/架构 | 待办 |
| 3 | 是否文档化计量口径(探针数/GB/Active Series)? | SRE/架构 | 待办 |
| 4 | 是否测试历史数据迁出吞吐? | SRE/架构 | 待办 |
| 5 | 是否对齐 SLO Burn Rate 告警路由? | SRE/架构 | 待办 |
| 6 | 是否配置多租户 hard limit? | SRE/架构 | 待办 |
| 7 | 是否统一 trace_id 贯穿 Logs/Traces? | SRE/架构 | 待办 |
| 8 | 是否 Runbook 链到稳定 URL? | SRE/架构 | 待办 |
| 9 | 是否 Game Day 演练主剧本? | SRE/架构 | 待办 |
| 10 | 是否记录 TCO 假设(机器/人力/超额)? | SRE/架构 | 待办 |
| 11 | 是否评估 LGTM 与托管曲线交叉点? | SRE/架构 | 待办 |
| 12 | 是否审查高基数 label 治理? | SRE/架构 | 待办 |
| 13 | 是否 Chaos 对照告警盲区? | SRE/架构 | 待办 |
| 14 | 是否 PII 清洗在 Collector? | SRE/架构 | 待办 |
| 15 | 是否 retention 与 SLO 窗口对齐? | SRE/架构 | 待办 |
十三、常见误解
| 误解 | 事实 |
|---|---|
| 自建只算机器 | 人力常为主项 |
| 托管总价固定 | 超额与迁出隐性 |
| 必须一次全迁 | OTel 支持渐进 |
| 小团队绝不能自建 | 可只自建 Loki+Tempo |
十四、系列收束
从 全景 到本篇,可观测性被拆解为:信号分层、数据模型、三大支柱、内核与网络、eBPF、SLO 与告警、成本与多租户、混沌、国内选型、事故剧本、自建决策。下一步回到 系列索引 按路径复习。
十五、关键概念回顾
- TCO = 机器 + 存储 + 网络 + 人力 + 超额 + 培训
- 规模与合规决定曲线交叉点
- OTel Collector 是迁移枢纽
- 用假设模型而非报价表做决策
上一篇:事故复盘剧本
回到系列索引:可观测性工程
附录 · TCO 深度 1:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 2:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 3:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 4:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 5:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 6:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 7:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 8:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 9:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 10:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 11:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 12:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 13:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 14:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 15:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 16:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 17:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 18:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 19:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 20:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 21:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 22:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 23:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 24:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 25:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 26:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 27:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 28:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 29:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 30:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 31:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 32:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 33:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 34:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 35:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 36:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 37:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 38:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 39:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 40:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 41:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 42:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 43:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 44:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 45:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 46:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 47:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 48:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 49:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 50:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 51:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 52:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 53:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 54:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 55:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 56:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 57:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 58:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 59:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 60:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 61:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 62:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 63:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 64:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 65:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 66:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 67:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 68:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 69:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 70:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 71:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 72:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 73:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 74:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 75:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 76:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 77:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 78:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 79:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 80:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 81:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 82:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 83:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 84:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 85:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 86:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 87:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 88:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 89:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 90:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 91:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 92:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 93:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 94:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 95:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 96:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 97:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 98:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 99:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 100:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 101:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 102:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 103:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 104:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 105:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 106:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 107:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 108:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 109:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 110:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 111:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 112:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 113:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 114:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 115:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 116:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 117:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 118:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 119:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 120:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 121:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 122:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 123:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 124:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 125:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 126:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 127:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 128:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 129:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 130:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 131:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 132:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 133:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 134:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 135:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 136:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 137:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 138:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 139:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 140:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 141:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 142:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 143:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 144:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 145:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 146:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 147:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 148:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 149:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 150:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 151:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 152:Mimir 容量
ingester 副本与 object store API 成本;见 07-tsdb-internals。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 153:Loki compaction
自建必须监控
loki_boltdb_shipper_compactor_running;无告警是常见坑。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 154:Tempo retention
block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 155:人力 FTE 核算
0.5 FTE × 月薪 + on-call 加班——常大于机器费。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 156:培训成本
PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 157:大促容量
自建可预留 buffer;托管可能限流——合同写明峰值。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 158:迁出 API 吞吐
PB 级导出月数;签约前测 otlp export
QPS。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 159:混合 Metrics
Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 160:合规 VPC
金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
附录 · TCO 深度 1:Collector 拆分
托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。
对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。
参考资料
- Grafana Labs, LGTM, https://grafana.com/about/lgtm/
- OpenTelemetry, Collector, https://opentelemetry.io/docs/collector/
- Google, Site Reliability Workbook, Ch.5
- 本系列 20-storage-cost
- 本系列 23-china-vendors
- Charity Majors et al., Observability Engineering, O’Reilly
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【可观测性工程】中国可观测性厂商对比:阿里 ARMS、腾讯 APM、华为 AOM、观测云、夜莺、DeepFlow
中国可观测性市场三条技术路线拆解:云托管、创业 SaaS、开源自建。对照本系列开源栈深度篇,给出场景匹配、锁定风险、信创约束与 TCO 假设模型,不做厂商排名或报价表。
【可观测性工程】埋点哲学:粒度、采样、基数爆炸与成本模型
埋点不是多加几行日志,而是一整套关于什么该记、什么该采样、什么该丢弃的工程决策体系。从信号分层、基数控制、采样策略到落地规范与工程坑点,给出可操作的埋点治理框架。
【可观测性工程】Traces 栈与采样:Jaeger、Tempo、Zipkin、SkyWalking
拆解 Jaeger、Tempo、SkyWalking 架构差异与采样策略(头部/尾部/自适应),给出 W3C TraceContext 传播、OpenTelemetry tail_sampling 配置与选型框架。
可观测性工程
从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。