自建 vs 托管：OpenTelemetry 自建栈与 SaaS 的选型决策

Team A：Grafana Cloud，月订阅约 $2k（读者自填），2 名 SRE 不全职运维观测栈。Team B：自建 LGTM，机器约 $3k/月 + 0.5 FTE SRE，总 TCO 约 $10k/月（人力按团队月薪自填）。Team B 保留 180 天 Trace、自定义 PromQL、数据不出 VPC。

OpenTelemetry 成熟后，自建不再是超大厂专属——但人力与迁出成本常被低估。本文给 TCO 假设模型与决策矩阵，不列 Datadog/Grafana Cloud/ARMS 单价表（会过期）。成本公式延续存储与成本；国内商业选项见中国厂商对比。

TCO 随规模变化决策矩阵

一、连续谱，不是二元

flowchart LR
  SaaS[全托管] --> Hybrid[混合]
  Hybrid --> Self[全自建]
  Hybrid --> SaaS

可组合：Metrics 托管 + Logs 自建；Traces 双写；Profile 按需 SaaS。

二、自建 LGTM 架构

2.1 组件对照

字母	组件	系列深度篇
L	Loki	08 Logs, 09 管道
G	Grafana	各篇 Dashboard
T	Tempo	10 Traces
M	Mimir	06 Prometheus, 07 TSDB

中枢：11 OpenTelemetry Collector。

2.2 最小生产拓扑

3× (16 vCPU, 64GB RAM, 500GB SSD) + S3 兼容对象存储
Collector DaemonSet → Distributor → Ingester → Object Store

2.3 人力模型

阶段	FTE	内容
初始化	2–4 周 × 1–2 人	搭建、集成、规范
日常	0.3–0.5 FTE	升级、容量、compaction
事故	按需	管道阻塞、查询超时

三、托管架构抽象

托管方承担：升级、多租户隔离、baseline 安全补丁。你承担：埋点规范、埋点哲学、SLO 规则语义。

计费维度通常：Host 数、ingest GB、Active Series、保留期档位——读者向厂商索取计量样例，代入下文公式，不用本文虚构单价。

四、TCO 假设模型

4.1 总公式

\[TCO_{month} = C_{compute} + C_{storage} + C_{network} + C_{human} + C_{overage} + C_{training}\]

与 20-storage-cost §2 一致。

4.2 Scenario A（200 服务 / 5000 Pod）

假设	值
QPS	50000
Log 行/请求	3 × 512B
Trace 采样	治理前 100% head
Span/请求	8

日增量公式见 20 篇 §2.2–2.3。

4.3 Scenario B（治理后）

杠杆	倍数
Trace head 1% + tail error	×0.05–0.15
Log INFO 10%	×0.3–0.4
Retention 缩短（非 SLO）	×0.5

4.4 规模临界点（工程判断）

规模	倾向
<100 节点	托管省心
100–500	POC 双写
>500 或 >10 TiB log/day	自建边际成本常更低

图示见 tco-comparison.svg。

4.5 代入模板

# 读者 worksheet（复制到表格）
C_storage_self = GiB_month × $/GiB-month × retention
C_storage_saas = ingest_GiB_day × 30 × $/GiB-ingest
C_human = FTE × $/month
TCO_self = C_compute + C_storage_self + C_human
TCO_saas = subscription + C_overage

五、五维决策矩阵

维度	倾向自建	混合	倾向托管
数据量	>10 TiB/day	1–10	<1
团队	≥1 SRE	0.3 FTE	无 TSDB 经验
合规	VPC 强约束	国内合同	无
查询	超大 PromQL	偶发	标准 Dashboard
预算	CapEx	混合	OpEx

计分：≥3 维自建 → LGTM POC；≥3 维托管 → SaaS POC；否则混合。

六、混合与渐进迁移

6.1 Collector fan-out

exporters:
  prometheusremotewrite/mimir:
    endpoint: http://mimir:9009/api/v1/push
  otlphttp/grafana-cloud:
    endpoint: https://otlp-gateway-prod.grafana.net/otlp
service:
  pipelines:
    metrics:
      receivers: [otlp]
      exporters: [prometheusremotewrite/mimir, otlphttp/grafana-cloud]

6.2 迁移阶段

双写 30 天
Grafana 数据源并行
告警切自建 Recording Rules
停 SaaS 写入（保留只读备）

反向迁移同理。

七、与治理层联动

18-slo：SLI 数据 retention 不可短于 SLO 窗口
19-alerting：Alertmanager HA 自建需 3 副本
20-storage-cost：降本杠杆顺序
21-multi-tenancy：托管多租户 vs Mimir tenant
23-china-vendors：国内托管选项

八、自建收益与代价

收益	代价
数据自主	compaction/WAL 运维
无限保留（成本允许）	0.3–0.5 FTE
自定义查询	安全补丁自负
合规 VPC	容量规划

九、托管收益与代价

收益	代价
低初始人力	超额费非线性
快速上线	查询/保留上限
含升级	迁出 PB 级慢

十、POC 设计（30 天）

周	任务
W1	双写 + 采样对齐
W2	Dashboard/告警对等
W3	故障注入 24-playbook
W4	TCO 填表 + 决策