土法炼钢兴趣小组的算法知识备份

【可观测性工程】自建 vs 托管:OpenTelemetry 自建栈与 SaaS 的选型决策

文章导航

分类入口
architectureobservability
标签入口
#self-hosted#saas#tco#lgtm#grafana-cloud#opentelemetry#hybrid#migration

目录

自建 vs 托管:OpenTelemetry 自建栈与 SaaS 的选型决策

Team A:Grafana Cloud,月订阅约 $2k(读者自填),2 名 SRE 不全职运维观测栈。Team B:自建 LGTM,机器约 $3k/月 + 0.5 FTE SRE,总 TCO 约 $10k/月(人力按团队月薪自填)。Team B 保留 180 天 Trace、自定义 PromQL、数据不出 VPC。

OpenTelemetry 成熟后,自建不再是超大厂专属——但人力与迁出成本常被低估。本文给 TCO 假设模型与决策矩阵,不列 Datadog/Grafana Cloud/ARMS 单价表(会过期)。成本公式延续 存储与成本;国内商业选项见 中国厂商对比

TCO 随规模变化 决策矩阵


一、连续谱,不是二元

flowchart LR
  SaaS[全托管] --> Hybrid[混合]
  Hybrid --> Self[全自建]
  Hybrid --> SaaS

可组合:Metrics 托管 + Logs 自建;Traces 双写;Profile 按需 SaaS。


二、自建 LGTM 架构

2.1 组件对照

字母 组件 系列深度篇
L Loki 08 Logs, 09 管道
G Grafana 各篇 Dashboard
T Tempo 10 Traces
M Mimir 06 Prometheus, 07 TSDB

中枢:11 OpenTelemetry Collector

2.2 最小生产拓扑

3× (16 vCPU, 64GB RAM, 500GB SSD) + S3 兼容对象存储
Collector DaemonSet → Distributor → Ingester → Object Store

2.3 人力模型

阶段 FTE 内容
初始化 2–4 周 × 1–2 人 搭建、集成、规范
日常 0.3–0.5 FTE 升级、容量、compaction
事故 按需 管道阻塞、查询超时

三、托管架构抽象

托管方承担:升级、多租户隔离、baseline 安全补丁。你承担:埋点规范、埋点哲学SLO 规则语义。

计费维度通常:Host 数、ingest GB、Active Series、保留期档位——读者向厂商索取计量样例,代入下文公式,不用本文虚构单价。


四、TCO 假设模型

4.1 总公式

\[TCO_{month} = C_{compute} + C_{storage} + C_{network} + C_{human} + C_{overage} + C_{training}\]

20-storage-cost §2 一致。

4.2 Scenario A(200 服务 / 5000 Pod)

假设
QPS 50000
Log 行/请求 3 × 512B
Trace 采样 治理前 100% head
Span/请求 8

日增量公式见 20 篇 §2.2–2.3。

4.3 Scenario B(治理后)

杠杆 倍数
Trace head 1% + tail error ×0.05–0.15
Log INFO 10% ×0.3–0.4
Retention 缩短(非 SLO) ×0.5

4.4 规模临界点(工程判断)

规模 倾向
<100 节点 托管省心
100–500 POC 双写
>500 或 >10 TiB log/day 自建边际成本常更低

图示见 tco-comparison.svg

4.5 代入模板

# 读者 worksheet(复制到表格)
C_storage_self = GiB_month × $/GiB-month × retention
C_storage_saas = ingest_GiB_day × 30 × $/GiB-ingest
C_human = FTE × $/month
TCO_self = C_compute + C_storage_self + C_human
TCO_saas = subscription + C_overage

五、五维决策矩阵

决策矩阵
维度 倾向自建 混合 倾向托管
数据量 >10 TiB/day 1–10 <1
团队 ≥1 SRE 0.3 FTE 无 TSDB 经验
合规 VPC 强约束 国内合同
查询 超大 PromQL 偶发 标准 Dashboard
预算 CapEx 混合 OpEx

计分:≥3 维自建 → LGTM POC;≥3 维托管 → SaaS POC;否则混合。


六、混合与渐进迁移

6.1 Collector fan-out

exporters:
  prometheusremotewrite/mimir:
    endpoint: http://mimir:9009/api/v1/push
  otlphttp/grafana-cloud:
    endpoint: https://otlp-gateway-prod.grafana.net/otlp
service:
  pipelines:
    metrics:
      receivers: [otlp]
      exporters: [prometheusremotewrite/mimir, otlphttp/grafana-cloud]

6.2 迁移阶段

  1. 双写 30 天
  2. Grafana 数据源并行
  3. 告警切自建 Recording Rules
  4. 停 SaaS 写入(保留只读备)

反向迁移同理。


七、与治理层联动


八、自建收益与代价

收益 代价
数据自主 compaction/WAL 运维
无限保留(成本允许) 0.3–0.5 FTE
自定义查询 安全补丁自负
合规 VPC 容量规划

九、托管收益与代价

收益 代价
低初始人力 超额费非线性
快速上线 查询/保留上限
含升级 迁出 PB 级慢

十、POC 设计(30 天)

任务
W1 双写 + 采样对齐
W2 Dashboard/告警对等
W3 故障注入 24-playbook
W4 TCO 填表 + 决策

十一、工程坑点

坑点 1

现象:签合同前未确认默认保留期——上线后发现仅 7 天。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 2

现象:未做 Trace 数据量 POC——按数据量计费时账单超预期。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 3

现象:私有化部署内核版本不支持 eBPF——DeepFlow 功能降级。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 4

现象:以为 OTel 兼容等于可无缝迁出——专有 attribute 未映射。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 5

现象:多租户未配 hard limit——单租户打爆共享存储。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 6

现象:Java Agent 与 OTel SDK 双埋点——存储翻倍。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 7

现象:告警直接 Page CPU 阈值——与 SLO 脱节。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 8

现象:未测迁出 API 吞吐——PB 级导出需数月。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 9

现象:信创环境未 POC Agent——麒麟内核 BTF 缺失。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 10

现象:Dashboard 依赖厂商专有查询——锁定查询层。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 11

现象:采样率在控制台改错——0 与 0.01 混淆。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 12

现象:双写 Collector 单实例——下游慢拖垮全局。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 13

现象:未记录计量口径——账单争议无证据。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 14

现象:只用 demo 环境评估——与生产流量模型不符。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 15

现象:忽略跨 AZ 流量费——对象存储 egress 隐性成本。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 16

现象:Runbook 链到过期 Confluence——on-call 无效。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 17

现象:Game Day 未演练 Trace 采样上调——事故时无慢请求样本。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 18

现象:PII 未在采集层清洗——等保审计失败。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 19

现象:混沌实验未对照 SLO——告警盲区未发现。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。

坑点 20

现象:自建 Compaction 无告警——查询超时后才发现。

根因:选型或治理流程跳过 POC/合同/Runbook 环节。

修复:纳入落地清单;事故后写入 reliability backlog。


十二、落地清单

# 检查项 负责人 状态
1 是否列出数据出境/等保/信创硬约束? SRE/架构 待办
2 是否完成 OTLP 双写 30 天 POC? SRE/架构 待办
3 是否文档化计量口径(探针数/GB/Active Series)? SRE/架构 待办
4 是否测试历史数据迁出吞吐? SRE/架构 待办
5 是否对齐 SLO Burn Rate 告警路由? SRE/架构 待办
6 是否配置多租户 hard limit? SRE/架构 待办
7 是否统一 trace_id 贯穿 Logs/Traces? SRE/架构 待办
8 是否 Runbook 链到稳定 URL? SRE/架构 待办
9 是否 Game Day 演练主剧本? SRE/架构 待办
10 是否记录 TCO 假设(机器/人力/超额)? SRE/架构 待办
11 是否评估 LGTM 与托管曲线交叉点? SRE/架构 待办
12 是否审查高基数 label 治理? SRE/架构 待办
13 是否 Chaos 对照告警盲区? SRE/架构 待办
14 是否 PII 清洗在 Collector? SRE/架构 待办
15 是否 retention 与 SLO 窗口对齐? SRE/架构 待办

十三、常见误解

误解 事实
自建只算机器 人力常为主项
托管总价固定 超额与迁出隐性
必须一次全迁 OTel 支持渐进
小团队绝不能自建 可只自建 Loki+Tempo

十四、系列收束

全景 到本篇,可观测性被拆解为:信号分层、数据模型、三大支柱、内核与网络、eBPF、SLO 与告警、成本与多租户、混沌、国内选型、事故剧本、自建决策。下一步回到 系列索引 按路径复习。


十五、关键概念回顾


上一篇事故复盘剧本

回到系列索引可观测性工程

附录 · TCO 深度 1:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 2:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 3:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 4:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 5:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 6:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 7:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 8:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 9:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 10:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 11:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 12:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 13:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 14:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 15:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 16:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 17:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 18:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 19:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 20:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 21:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 22:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 23:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 24:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 25:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 26:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 27:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 28:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 29:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 30:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 31:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 32:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 33:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 34:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 35:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 36:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 37:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 38:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 39:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 40:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 41:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 42:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 43:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 44:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 45:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 46:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 47:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 48:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 49:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 50:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 51:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 52:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 53:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 54:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 55:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 56:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 57:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 58:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 59:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 60:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 61:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 62:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 63:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 64:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 65:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 66:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 67:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 68:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 69:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 70:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 71:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 72:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 73:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 74:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 75:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 76:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 77:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 78:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 79:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 80:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 81:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 82:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 83:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 84:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 85:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 86:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 87:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 88:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 89:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 90:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 91:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 92:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 93:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 94:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 95:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 96:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 97:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 98:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 99:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 100:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 101:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 102:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 103:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 104:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 105:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 106:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 107:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 108:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 109:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 110:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 111:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 112:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 113:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 114:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 115:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 116:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 117:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 118:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 119:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 120:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 121:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 122:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 123:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 124:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 125:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 126:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 127:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 128:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 129:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 130:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 131:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 132:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 133:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 134:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 135:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 136:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 137:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 138:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 139:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 140:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 141:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 142:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 143:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 144:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 145:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 146:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 147:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 148:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 149:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 150:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 151:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 152:Mimir 容量

ingester 副本与 object store API 成本;见 07-tsdb-internals

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 153:Loki compaction

自建必须监控 loki_boltdb_shipper_compactor_running;无告警是常见坑。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 154:Tempo retention

block 保留与 S3 lifecycle;Trace 成本见 20-storage-cost

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 155:人力 FTE 核算

0.5 FTE × 月薪 + on-call 加班——常大于机器费。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 156:培训成本

PromQL/LogQL/TraceQL 学习曲线;托管降低查询语言门槛。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 157:大促容量

自建可预留 buffer;托管可能限流——合同写明峰值。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 158:迁出 API 吞吐

PB 级导出月数;签约前测 otlp export QPS。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 159:混合 Metrics

Grafana Cloud Mimir + 自建 Loki 常见;统一 Grafana 数据源。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 160:合规 VPC

金融/政企强制自建或国内托管;国际 SaaS 需数据驻留条款。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

附录 · TCO 深度 1:Collector 拆分

托管与自建各用独立 Collector 实例,避免 fan-out 单点背压。

对照 23-china-vendors 商业选项与 24-incident-playbook 排障能力验证。

参考资料

  1. Grafana Labs, LGTM, https://grafana.com/about/lgtm/
  2. OpenTelemetry, Collector, https://opentelemetry.io/docs/collector/
  3. Google, Site Reliability Workbook, Ch.5
  4. 本系列 20-storage-cost
  5. 本系列 23-china-vendors
  6. Charity Majors et al., Observability Engineering, O’Reilly

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-22 · architecture / observability

可观测性工程

从 Metrics、Logs、Traces 到 Profiling、eBPF、OpenTelemetry 与 SLO 治理,面向中国工程团队的可观测性系统化手册。全 25 篇。


By .