【大模型基础设施工程】25：大模型基础设施未来

写在最前

这是本系列的第 25 篇，也是收官篇。

前 24 篇我们从 GPU 体系结构、CUDA 生态、互联网络讲到训练并行、MoE、RLHF；从推理引擎、PagedAttention、vLLM/SGLang 讲到量化、推测解码、长上下文；从 RAG、向量库、Agent 讲到网关、观测、成本与合规。整整六个大部分，把一个大模型基础设施工程师在 2026 年上半年需要掌握的知识骨架铺了一遍。

但基础设施这件事永远没有”学完”的一刻。2022 年 11 月 ChatGPT 发布时，我们还在讨论”Transformer 推理能不能 batch”；两年半后，我们在讨论”推理时 Scaling 应该用几棵树”“国产千卡集群跑 DeepSeek-V3 的 MFU 能到多少”“Blackwell 的 FP4 实战能省多少成本”。下一次大的变盘不会让我们等太久。

这一篇不讲具体技术实现，而是从一位在工程一线的视角，把未来 3–5 年可见的演进方向、工程师的成长路径、值得长期追的资源都梳理一遍，给读者一张”接下来往哪走”的路线图。

全文按”先复盘四年拐点 → 八条趋势 → 工程师路径 → 资源 → 系列索引 → 案例 → 劝退劝进 → 结语”的顺序展开。每一条趋势都尽量给出对基础设施栈的具体影响与可操作的工程建议，避免”预测”变成”猜谜”。你可以选择顺读，也可以挑自己最关心的趋势跳读——但十二节的”系列索引”建议留到最后，那是系列的完整目录，回看全景时最有用。

一、回顾：2022–2026 四年关键拐点

先把过去四年的时间轴钉在一张表上，每一个拐点都对应基础设施栈一次大的”翻篇”。

时间	事件	基础设施层面的影响
2022.11	ChatGPT 发布	推理服务化成为新学科；GPU 价格飙升
2023.02	LLaMA 泄露	开源生态起点；消费级 GPU 跑大模型成为可能
2023.06	vLLM / PagedAttention 论文	推理吞吐一夜 10× 提升
2023.09	FlashAttention-2 / GPTQ / AWQ	Attention 与量化进入工程常态
2024.02	Sora 发布	视频生成成为”下一个 ChatGPT”预期
2024.05	GPT-4o / Llama-3 / DeepSeek-V2	多模态端到端 + MoE 开源重塑训练范式
2024.09	o1 预览	推理时 Scaling 登上舞台
2024.12	DeepSeek-V3 / Gemini 2.0	5M 美金训 670B MoE；推理成本再降 10×
2025.01	DeepSeek-R1 / Blackwell B200 量产	开源推理模型追平 o1；FP4 成为新基准
2025.05	Qwen3 / Claude 4 / Grok 3	多供应商并举；Agent 能力进入主流
2025.09	GPT-5 / Gemini 3	推理预算成为一级超参
2026.Q1	Rubin R100 / MI400 样机	下一代训练卡定型

从基础设施栈的角度看，这四年做对了三件事：

把”推理”从训练的附属品，抬成了独立学科。 PagedAttention、Continuous Batching、Speculative Decoding、Disaggregated Prefill/Decode 都是 2023 之后才系统化的。
把”训练万卡”从 Google/OpenAI 的专利，变成了任何一家认真做模型的公司的基本功。 Megatron-LM、DeepSpeed、以 FSDP 为核心的开源栈、加上国产千卡/万卡集群的量产，让 100B+ 模型训练进入”有钱就能做”的阶段。
把”成本”从 CFO 的烦恼，变成了工程师的 KPI。 单位 token 成本每年 10× 下降，这个数字的背后全是系统工程师、Kernel 工程师、量化工程师的肉搏。

接下来 3–5 年的趋势，延续着这三条线索，但在每一条上都会出现新的分叉。

二、趋势一：推理时 Scaling（Test-time Compute）

2.0 一张图概览

2.1 范式固化

2024 年 9 月 o1 出现之前，业界还在争论”Scaling Law 是不是到头了”。o1 给出的答案是：预训练的 Scaling 也许放缓了，但推理时计算这条轴刚刚开始。2025 年 DeepSeek-R1、Qwen QwQ、Kimi K1.5、Gemini 2.5 Thinking、Claude 4 Thinking 全面跟进，这条范式已经固化。

典型推理时 Scaling 有三类：

单链长推理（Long CoT）：在回答前生成几千到几万 token 的思考链。o1/R1 路线。
多分支采样 + 选择（Best-of-N / MCTS）：并行跑 N 条推理路径，由奖励模型或多数投票选最优。
过程奖励模型（PRM）引导的树搜索：在每一步用 PRM 打分，剪掉差分支，保留好分支。

2.2 对基础设施的新要求

对推理引擎来说，这三类都指向同一件事：一次”请求”的算力消耗不再可预估。一个数学题可能 500 token 出答案，也可能 5 万 token 思考后给答案；一个 Agent 任务可能只调一次模型，也可能在树搜索里调 200 次。

这带来四个基础设施层面的挑战：

KV Cache 压力剧增。Long CoT 一条 32K–128K 是常态，单条请求的 KV 占用可能比以前一整个 batch 还多。长上下文引擎（16 篇讲过的 PagedAttention + Prefix Cache + Disaggregation）从”可选优化”变成”必选项”。
Scheduler 要理解”推理预算”。用户可以指定 reasoning_effort=low|medium|high，或者 max_thinking_tokens=8192。网关和引擎都要把这个作为一等参数，用于配额、计费、SLO。
多分支并行需要引擎原生支持。SGLang 的 fork / RadixAttention、vLLM 的 Prefix Cache、Outlines 的受约束采样，这些组合在一起才能让 Best-of-N 和 MCTS 不线性爆炸成本。
PRM / Verifier 成为第二个在线模型。除了主模型，你还要部署一个小一些的 Reward/Verifier 模型，两者异构共存，还要低延迟通信。典型部署会把 Verifier 放到同集群的小卡（L20、4090、910B）上。

伪代码上，一次 Best-of-N + PRM 的推理大致长这样：

async def reason_with_budget(prompt: str, budget: int = 8):
    shared = await llm.prefill(prompt)          # 前缀共享
    branches = await llm.sample(shared, n=budget, max_tokens=4096)
    scores = await prm.score_batch(prompt, branches)
    best = branches[int(np.argmax(scores))]
    return best

关键词是 shared prefix、batch sampling、PRM 并行评分。三件事都要引擎原生支持，否则成本会线性爆炸。

2.4 一个最小可运行示例

SGLang 原生支持 fork，做并行分支非常自然：

import sglang as sgl

@sgl.function
def reason_multi(s, question, n=5):
    s += "Question: " + question + "\n"
    forks = s.fork(n)
    for i, f in enumerate(forks):
        f += f"\n[Attempt {i}]\n"
        f += sgl.gen("answer", max_tokens=2048, temperature=0.8)
    forks.join()
    s += sgl.gen("final", max_tokens=512,
                 prompt="Pick the best answer from above:\n" +
                        "\n".join(f["answer"] for f in forks))

配合 RadixAttention，共享前缀的 KV 只计算一次，N 条分支的实际成本约为 prefix_cost + N × branch_cost，而不是 N × (prefix_cost + branch_cost)——这一点优化对 Best-of-N 至关重要。

2.5 经验数字

从 2025 年多家厂商的公开/内部数据，可以给一组粗略经验（仅供量级参考）：

推理模式	平均输出 token	相对基线成本	质量提升（数学/代码基准）
普通 CoT	500	1×	+0%
Long CoT（o1-mini 档）	3000–8000	8×	+15–25 分
Best-of-8	500 × 8	~6×	+8–15 分
MCTS（深度 5×宽度 4）	~10000	15×	+20–30 分
Long CoT + Best-of-4	20000+	30×	+25–40 分

成本翻 10–30 倍换来质量提升 20–40 分，这就是”推理预算”这个一级超参背后的 trade-off。在生产里通常做成：免费版走普通 CoT，付费版走 Long CoT，企业版按需开 MCTS。

2.6 工程影响

计费模型要改：从”按 token 收费”过渡到”按 token + 思考预算”双轴。
SLO 定义要改：TTFT 不再是核心指标，TTFA（Time To First Answer） 成为新指标，即”用户从发送到看到最终答案”的墙钟时间。
监控维度要改：推理链长度分布、分支选中率、Verifier 命中率都要进 23 篇讲的可观测栈。
配额要带维度：tenant × reasoning_effort 双维度配额，防止单租户开 high 把集群打爆。

三、趋势二：世界模型与视频生成

3.1 从 LLM 到 World Model

2024 年 Sora 让视频生成进入”演示级”，2025 年 Veo 3、Kling 2、Vidu Q1、可灵、Pika 进入”可商用级”，2026 年的关键词是 世界模型（World Model）：不只是生成视频，而是生成”可交互、可预测物理、可被 Agent 调用”的 4D 世界。代表作：

Genie 2 / Genie 3：Google DeepMind，基于图像和动作生成可玩世界。
NVIDIA Cosmos：定位为机器人基础模型的”世界模型平台”。
World Labs / Decart：李飞飞等推动的 3D 世界生成。
Sora 2 / Veo 3：可控镜头、物理一致性大幅提升。

3.2 技术栈

主流视频/世界模型走 DiT（Diffusion Transformer）+ 3D VAE + Rectified Flow 路线：

3D VAE：把 H×W×T 的原始视频压到 h×w×t 的 latent（压缩比 8×8×4 或 16×16×8）。
Patch 化 + 位置编码：latent 切 patch，加 3D RoPE 或 NaViT 式变长编码。
DiT 主干：纯 Transformer，条件通过 AdaLN 或 cross-attention 注入。
Flow Matching / Rectified Flow 训练：比 DDPM 更稳定、步数更少。

3.3 成本量级

以一个”类 Sora 1”的 5B DiT 为例，给一个粗略的成本口径（只做量级参考）：

阶段	数据量	计算量	H100-hour	美元（按 2026 云价 1.5 USD/H100h）
预训练	~100M clip × 5s × 24fps	~1e23 FLOPs	~50 万	~75 万
微调	~1M clip 精标	~5e21	~2.5 万	~4 万
单条 5s 720p 推理	-	~1e15	~0.02	~0.03

这意味着：

训练门槛：单次训练不到百万美金级别，比 LLM 预训练已经便宜很多，但数据成本（版权、标注）远超算力。
推理门槛：一条 5s 视频几分钱，但用户期望是”即时”——这对 DiT 的步数、KV/Feature Cache、并行采样提出了和 LLM 完全不同的挑战。
长视频（>1 分钟）仍是瓶颈，问题在于注意力的 O(N²) 和 VAE 的重建误差累积，这正是下一个 FlashAttention/PagedAttention 级别的突破点。

3.5 视频推理的新瓶颈

LLM 推理的三大瓶颈（KV、显存带宽、通信）在视频世界里换了名字：

Feature Cache（相当于 KV）：DiT 每步的中间激活可以跨步共享，TeaCache、DeepCache、Delta-DiT 等方案在 2025 年快速工程化，单卡推理加速 2–4×。
步数压缩：Rectified Flow、Consistency Model、LCM、DMD2 把采样步数从 50+ 压到 2–8 步，成本直接砍 10×。
分辨率金字塔：先低分生成结构，再高分 refine，避免一开始就在 1080p 上跑全步数。

一个典型 720p/5s 视频生成的引擎层优化收益（以 5B DiT 为例）：

优化	延迟	显存	备注
朴素 DDPM 50 步	90s	80GB	baseline
Flow Matching + 25 步	45s	80GB	-50% 延迟
+ TeaCache	28s	80GB	feature 复用
+ FP8 权重	25s	42GB	能上单张 H100
+ TP2	14s	2×22GB	多卡可扩
+ 蒸馏到 4 步（DMD2）	4s	22GB	质量略降

这组组合拳里，每一条都需要推理引擎原生支持——这就是 vLLM/SGLang 团队 2025 年底开始增加多模态/视频后端的原因。

3.4 机器人与具身

世界模型与机器人基础模型（Robotics Foundation Model）会合流：

Physical Intelligence π0 / π0.5
Google RT-2 / Gemini Robotics
Figure Helix
UniTree / 宇树科技 的端到端控制

这对基础设施意味着：推理要从云端下沉到边缘，延迟从 100ms 级压到 10ms 级，端侧跑世界模型而云端跑规划——这是端云协同下一个爆发点。

四、趋势三：Agentic OS / Agentic Infra

4.1 Agent 成为一等公民

过去我们把 LLM 当函数调用，把 Agent 当应用层。未来 3 年，Agent 将从应用层渗透到系统层，出现 Agentic OS：

Anthropic Claude Code / OpenAI Codex / Cursor：编程 Agent 成为 IDE 替代。
Browser Use / OpenAI Operator / Anthropic Computer Use：Agent 直接操作浏览器和桌面。
Manus / Devin / Genspark：通用任务 Agent。
Microsoft Copilot+ PC / Apple Intelligence：OS 层集成。

这里面基础设施的关键词不是”Agent 框架”，而是 Agent Runtime：一个能长时运行、有状态、有权限、可审计、可被多 Agent 共享的运行时。

4.2 MCP 生态固化

第 20 篇讲过 Model Context Protocol（MCP）。2025 下半年到 2026 上半年，MCP 从 Anthropic 一家推变成 OpenAI、Google、Microsoft 全都跟进，定位相当于 “Agent 时代的 LSP”。未来一两年几乎可以确定的事：

每个主流 SaaS 都会出官方 MCP Server（GitHub、Slack、Notion、Jira、Salesforce、飞书、钉钉都已经有）。
MCP Gateway 会成为企业标配，负责鉴权、审计、限流——就是第 22 篇讲的 LLM Gateway 能力向工具层的延伸。
出现 MCP 市场：像 App Store，但面向 Agent。

4.3 OS 级沙箱

Agent 能执行任意代码和点击任意按钮，安全模型必须重写。目前的工程实践：

E2B / Daytona / modal：云端 microVM（Firecracker），每会话一个。
Docker + gVisor / Kata Containers：中等隔离。
eBPF 策略：细粒度 syscall 限制，适合做”Agent Guardrails”。
浏览器侧：Playwright / Chromium DevTools Protocol + 独立 Profile，限制网络域名与文件访问。

一个生产级 Agent 平台的隔离分层长这样：

┌─────────────────────────────────────────┐
│ 用户/租户隔离（namespace、quota）         │
├─────────────────────────────────────────┤
│ 会话级 microVM（Firecracker，<200ms 启动）│
├─────────────────────────────────────────┤
│ 进程级 seccomp + eBPF 策略               │
├─────────────────────────────────────────┤
│ 文件系统 overlayfs + 只读基础镜像         │
├─────────────────────────────────────────┤
│ 网络 egress 白名单 + TLS MITM 审计       │
└─────────────────────────────────────────┘

4.4 Agent Runtime 的技术栈

一个生产级 Agent Runtime 通常由以下几层组成：

会话存储：短期记忆放 Redis，长期记忆进向量库 / 图库，ckpt 走对象存储。LangGraph 的 checkpointer 抽象是一个不错的模板。
任务调度：长时任务通常跑几分钟到几小时，需要类似 Temporal / Dagster 的”可恢复工作流”而不是简单的 task queue。
工具执行器：MCP Server 池 + 沙箱池。MCP 侧重协议，沙箱侧重隔离。
观测与计费：每一次工具调用、每一次模型调用、每一次沙箱启动都要可审计、可计量。

一个最小的 Agent Runtime 接口长这样：

class AgentRuntime:
    async def create_session(self, user, policy) -> Session: ...
    async def step(self, session, input) -> Action: ...
    async def exec_tool(self, session, tool, args) -> ToolResult: ...
    async def checkpoint(self, session) -> bytes: ...
    async def restore(self, blob) -> Session: ...
    async def destroy(self, session) -> None: ...

把这个抽象画清楚了，上层框架（LangGraph / AutoGen / CrewAI / OpenAI Agents SDK）都只是不同风格的 DSL。基础设施工程师要盯住的是 Runtime，不是 DSL。

五、趋势四：专用芯片与国产替代

5.1 NVIDIA：Rubin 路线

Blackwell（B100/B200/GB200）在 2025 年完成铺货，2026 年开始进入 Rubin 世代：

Rubin R100（2026）：HBM4、NVLink6、更激进的 FP4/FP6。
Rubin Ultra（2027）：多 die 封装进一步做大。
Rubin CPX（2026）：专门针对”长上下文 prefill”优化的分体卡。

其中 Rubin CPX 值得特别关注：NVIDIA 第一次承认prefill 和 decode 应该用不同硬件，这和我们在第 12/21 篇讲的 Disaggregated Serving 是同一个故事，只是现在从软件走到了硬件。

5.2 AMD、Intel、专用 ASIC

AMD MI350 / MI400：CDNA4 架构，HBM 容量优势，ROCm 生态在 vLLM/SGLang 上已可用。
Intel Gaudi 3 / Falcon Shores：挣扎中，但价格是优势。
Groq：LPU，主打超低延迟 decode，2025 年开始有规模客户。
Cerebras：WSE-3 晶圆级，单芯片跑大模型，推理延迟优势明显。
SambaNova：RDU，企业私有部署场景。
Etched Sohu：Transformer-only ASIC，赌”Transformer 是未来 10 年唯一架构”。

专用 ASIC 的逻辑是：如果架构固定 5 年不变，ASIC 可以比 GPU 快 5–10×。这个赌局在 SSM/Mamba 成熟后会承压，但短期（2026–2027）Transformer 的地位稳固。

5.3 超大规模自研

Google TPU v7（Ironwood）：2026 年主力，训练推理一体。
AWS Trainium 3 / Inferentia 3：Anthropic 绑定训练。
Apple M 系列 + ANE：端侧统一内存是杀手锏，macOS/iOS 上的本地推理默认走 ANE。
Microsoft Maia 2、Meta MTIA v2：自用为主。

5.4 中国：国产替代的工程现状

出口管制持续收紧的背景下，国产替代不再是”口号”，而是工程现实：

厂商	旗舰卡	对标	工程现状（2026 Q1 口径）
华为昇腾	910B / 910C	A100 / H100	DeepSeek、Qwen、盘古大规模跑通；CANN/MindSpore 生态成熟度提升
寒武纪	思元 590	A100	推理为主；部分互联网客户量产
摩尔线程	MTT S4000	A100	MUSA 生态；千卡集群样板落地
燧原	云燧 i20 / L600	L40S / A100	推理为主；与百度/字节合作
壁仞	BR100 系列	H100 推理	出口管制下回归国内市场
沐曦	曦云 C500	A100 / H100	推理客户逐步扩大
海光	深算 DCU Z100	MI200	ROCm 兼容路线

工程视角的几条经验：

训练端：昇腾 910B/C 是目前唯一能跑起万卡级训练的国产方案。DeepSeek-V3、Qwen 系列在昇腾集群上有正式验证。
推理端：百花齐放，场景化明显。90% 国产推理部署集中在 70B 以下 MoE / Dense，通过 AWQ/GPTQ 量化到 INT8 即可匹配 A100 FP16 的质量。
生态短板：CUDA 生态的 10 年积累不是一两代硬件能补齐的。工程师最大的痛点不是算力，而是”同一份代码跑两套卡”——未来 3 年围绕 Triton 国产后端、PyTorch 2.x inductor 多后端、vLLM/SGLang 的国产化 backend 会有大量工程工作。
组网和调度：国产方案的 NVLink 等价物（HCCS、MetaLink、灵汐互联）带宽和拓扑都在快速收敛到 NVLink/NVSwitch 可比水平，真正的差距在软件栈稳定性。

5.5 选卡决策矩阵

一张 2026 年的”选卡建议表”，供工程团队做采购时做参考——不是权威榜单，只是从基础设施工程视角的经验归纳：

场景	首选	次选	备注
200B+ 预训练	H200 / B200 / Rubin	昇腾 910C（国内）	NVLink 带宽是决定因素
70B MoE 训练	H100 80G	910B、MI325X	FP8 支持是加分项
70B MoE 推理（高 QPS）	H100 / B200	910C	PagedAttention 原生支持
7–13B 推理（低成本）	L40S / 4090 / A10	MTT S4000、沐曦曦云	显存 ≥ 48G 才能 batch 大
长上下文 prefill	Rubin CPX / H200	MI325X	显存容量主导
Edge 推理	Jetson Orin / Apple Silicon	手机 NPU	端侧生态优先
专用 Transformer 极致延迟	Groq、Etched Sohu	Cerebras	架构锁定风险

决策的一个简化框架：

先问是训练还是推理。训练几乎只能 NVIDIA + 昇腾二选一；推理选择多。
再问是 prefill 还是 decode 瓶颈。Prefill 拼算力，decode 拼显存带宽。
最后算两年 TCO。按 2 年折旧 + 电费 + 运维人力一起算，很多便宜卡算下来并不便宜。

5.6 国产适配的几个实操点

真正把一个模型”搬上国产卡”的时候，绕不开的工程点：

算子覆盖：先用 torch._dynamo / torch.export 打一份完整算子清单，对照厂家 SDK 的算子列表查漏；缺的算子要么 fallback CPU，要么手写。
通信原语：NCCL 的 all_reduce / all_gather / reduce_scatter 需要对应到 HCCL/MCCL 等国产通信库，拓扑适配常踩坑。
精度对齐：FP16/BF16 在不同硬件上精度模型不同，特别是 softmax、layernorm 这些敏感算子，一个集群训练几天后 loss 曲线抖动，80% 是精度问题。
调度器：千卡级国产集群常缺成熟的调度器（K8s+Volcano、PAI、Slurm 都有短板），实际落地时自研补齐的情况很多。

六、趋势五：架构创新

6.1 SSM / Mamba / RWKV 的持续冲击

Transformer 在 2017 年发表，到 2026 年已经 9 年”不倒翁”。挑战者一直在排队：

Mamba / Mamba-2：状态空间模型（SSM），推理 O(N) 复杂度。
RWKV v7：彭博团队持续迭代，开源社区活跃。
xLSTM：Sepp Hochreiter（LSTM 作者）的新工作。
RetNet：Microsoft，推理阶段 recurrent。

纯 SSM 仍然在”能否追上 Transformer 质量”上有争议，但Hybrid 架构已经被证明可行：

Jamba（AI21）：Mamba + Transformer + MoE。
Zamba / Zamba2（Zyphra）：SSM 主干 + Shared Attention。
Hymba（NVIDIA）：SSM + Attention 双头并行。
Samba（Microsoft）：SSM 与 SWA 交替。

6.2 Diffusion LLM

2025 年另一个有趣信号是 Diffusion LLM：

LLaDA（人大高瓴）：Masked Diffusion 路线的文本模型，8B 级别已接近同规模 AR 模型。
SEDD：Score-based Discrete Diffusion。
Mercury（Inception Labs，2025）：商用 Diffusion LLM，生成速度比 AR 快 5–10×。

Diffusion LLM 在推理基础设施上意味着另一种范式：并行生成而不是顺序生成，KV Cache 可能不再必要，取而代之的是多步”去噪”。这会让第 12–15 篇讲的 PagedAttention/Speculative 那一整套优化需要重新设计。如果 Diffusion LLM 真的成立，现有推理引擎会有一次大重写。

6.3 长上下文的架构内解

回到第 16 篇讨论过的长上下文：

Infini-attention（Google）：压缩式长记忆。
Test-time Training（TTT）：在推理时微调隐状态。
Titans（Google）：显式长期记忆模块。
Gemini 1.5 Pro / 2.5 Pro：千万级 token 上下文的工业化。

趋势：“注意力 + KV Cache 线性扩大”的老路走不动了，未来 2–3 年会看到架构内的长记忆方案成为主流，基础设施的焦点会从”把 KV Cache 压缩好”转到”把长期状态管理好”。

6.4 对基础设施的连锁反应

一张”架构假设 vs 基础设施组件”的依赖表，可以提前识别哪些栈会被影响：

架构假设	若被打破，受影响的组件
Attention 是主力算子	FlashAttention 系列、Etched Sohu 这类 ASIC
KV Cache 是推理核心状态	PagedAttention、Prefix Cache、Disaggregation
顺序生成 / 自回归	Continuous Batching、推测解码、MTP
全局 softmax 依赖	混合精度策略、在线 softmax kernel

例如 Diffusion LLM 如果胜出，前三行全部被颠覆——也就是说 vLLM/SGLang 里 70% 以上的核心代码会需要重写。基础设施工程师的价值就在于能在这种范式切换来临前做好”可插拔化”设计，让引擎不至于被一条架构线绑死。

6.5 短期下注建议

给工程团队的一个务实建议：

2026：仍然押 Transformer + MoE。Mamba/SSM/Diffusion LLM 值得跟进但不投生产。
2027：关注 Hybrid MoE+Mamba 在 200B+ 尺度的真实效果；若追平 Dense Attention，准备引擎层的 SSM kernel。
2028：若某一条非 Transformer 路线在评测 + 成本 + 生态上全面碾压，用 6 个月重写引擎。

不要在风向不明时押死一条架构，但要把引擎设计成可换主干的。

七、趋势六：小模型与端侧

7.1 小模型的崛起

2024–2025 年最被低估的趋势是小模型质量的飞跃：

模型	参数	2026 Q1 水平
Phi-4 / Phi-5	7–14B	逼近 GPT-4 早期版本
Gemma 3	2–27B	Google 开源旗舰
Qwen3-1.8B / 4B	1.8–4B	中文端侧首选
MiniCPM 4	2–8B	端侧效率之王
Llama 3.2 1B/3B	1–3B	移动端主力
SmolLM 3	1–3B	Hugging Face 社区旗舰

“7B 追平两年前 GPT-3.5，1.5B 追平两年前 GPT-3” 正在变成新的常识。这改变了”哪一层跑什么模型”的默认答案。

7.2 端侧推理栈

端侧不是一个新话题，但 2026 年终于落地成熟：

Ollama：桌面 Mac/Linux/Win，默认选项。
llama.cpp / gguf：一切端侧推理的基石，CPU/Metal/Vulkan/CUDA 全覆盖。
MLX（Apple）：Apple Silicon 原生，M 系列 + ANE 最优路径。
ExecuTorch（PyTorch / Meta）：统一的端侧导出+运行时。
TensorFlow Lite / LiteRT / MediaPipe（Google）：Android 主力。
mnn-llm（阿里）：国内端侧部署成熟方案。
MLC LLM：跨平台 WebGPU/Metal/Vulkan 编译。

7.3 手机 NPU

高通骁龙 8 Gen 4 / 8 Elite：集成 Hexagon NPU，端侧 7B 已可实时。
Apple Neural Engine：M/A 芯片统一架构，Apple Intelligence 默认路径。
联发科天玑 9400：APU 性能提升明显。
华为麒麟 9020 / 昇腾 NPU：盘古端侧版本落地手机。
三星 Exynos / Google Tensor G4：追赶中。

7.4 端云协同

理想架构：

┌──────────────────────────────────────────┐
│           用户意图（语音/文本/视觉）       │
└───────────────────────┬──────────────────┘
                        ▼
         ┌────────────── 端侧小模型 ─────────────┐
         │ - 意图分类、隐私敏感任务              │
         │ - 3B 以下，ANE/NPU，<200ms            │
         └─────────────┬────────────────────────┘
                       │ 需要大能力时
                       ▼
         ┌────────────── 云端大模型 ─────────────┐
         │ - 复杂推理、工具调用、长上下文        │
         │ - 70B+ MoE，H100/Rubin，流式          │
         └───────────────────────────────────────┘

这里基础设施的机会在：端云一致的模型家族（同训练方案下的 1B/3B/8B/70B 一起出）、端云会话状态同步（KV Cache 的加密上传与对齐）、端侧监控（如何观测不在你机房的推理）。

八、趋势七：成本腰斩定律

8.1 10× / 年

2023 年底 GPT-4 大约 30 USD / 1M input tokens；2026 年初同等质量的开源模型（DeepSeek-V3、Qwen3-Max、Llama 4）以 0.1–0.3 USD / 1M input tokens 提供，两年 100× 降价，年化约 10×。

这个 10× 不是单一因素，而是四股力量叠加：

硬件：A100 → H100 → B200 → Rubin，每代大约 2–3× 性价比提升。
量化：FP16 → FP8 → FP4，每一跳 2×。
引擎：vLLM/SGLang 相比朴素 HF Transformers 的吞吐 5–20×。
模型架构：MoE、稀疏激活、共享 KV 带来的等效算力下降 2–5×。

简单相乘就是 40–200×，符合观测到的 ~100×/2 年。这个趋势至少还能延续 2–3 年，之后会进入”硬件工艺逼近物理极限、量化已到 INT2/三元、架构稳定”的收敛期。

8.2 对上层的冲击

免费 tier 常态化：ChatGPT Free、Gemini Free、豆包、文心免费版会把基础能力彻底白菜化。商业模型从 “按 token 卖” 转向 “按 Agent/结果卖”。
自建 vs 调 API 的盈亏点在漂移：2024 年”日耗 >5 万美元自建划算”，2026 年可能要到 50 万美元。第 24 篇讲过这个计算。
“便宜的大模型”取代”好用的小模型”的场景在扩大：以前为省钱用 7B，现在可能直接用 70B MoE 的 API，因为已经足够便宜。

8.3 商业模式新形态

按 Agent 任务定价：Devin 等 Agent 按”成功完成一个 PR”收费。
按行业结果定价：法律 AI 按”一份合同审阅”，医疗 AI 按”一次报告”。
Token 订阅制：ChatGPT Pro、Claude Max、Grok Heavy 这些固定月费无限用，背后是”推理成本已经足够便宜”。

8.4 一张”成本曲线”的直观图

8.5 工程 checklist：当成本再腰斩时你要做什么

重新估 TCO：自建 vs API 的盈亏线是否漂移？
重审缓存：API 便宜到某个阈值后，语义缓存的”保命作用”变成”边际作用”。
重做配额：免费 tier 能给到多宽？竞争对手给到什么水平？
重画数据回流：成本低意味着可以打开更多”带日志的蒸馏采样”，让自家模型反过来吃 API 的输出（注意合规）。

九、趋势八：合规与安全成为一级需求

9.1 监管落地

EU AI Act：2024 年生效，2026 年 8 月高风险 AI 义务全面适用。基础模型提供者要披露训练数据、算力、能耗。
中国《生成式人工智能服务管理暂行办法》：2023 年已施行，备案 + 安全评估常态化；2025 年后评测与算法备案扩展到 Agent、向量库、数据集。
美国：行政令反复，但州级立法（加州 SB 53 等）持续收紧。
日本、韩国、英国、新加坡：各自在制定轻量框架。

工程上要落地的事：

训练数据血缘：每份数据哪来的、是否合规，需要能审计到任意一个 checkpoint。
模型卡 + 系统卡：不是”交差文档”，是监管必需品。
内容水印：C2PA、SynthID 这类标准会成为合规默认项。

9.2 AI 审计、红队、可解释

审计：第三方对大模型的安全性、数据合规、偏见进行评估；国内由信通院、公安三所等执行，国际上 NIST AI RMF、ISO/IEC 42001 是主要框架。
红队：Anthropic、OpenAI、Google 的红队已经工业化；国内互联网公司也在组建。红队的基础设施包括攻击 prompt 库、自动化攻击 Agent、评估 harness、回归测试。
可解释：Anthropic 的 Circuits、OpenAI 的 Sparse Autoencoder、Neel Nanda 的机理可解释性研究，2026 年会从”学术”走到”工程”——审计团队需要这些工具证明模型没有偏见。

9.3 基础设施视角的整合

第 24 篇已经深入讲过合规+安全。这里补充一个趋势性的判断：未来 2 年，合规与安全会从”项目后期补贴”变成”项目初期就要布好的底座”。具体落位到栈：

数据层：数据血缘 + 水印注入。
训练层：训练可追溯 + 差分隐私选项。
推理层：Prompt/Output 审计日志 + 内容过滤 + 水印输出。 ### 9.4 合规栈的参考架构

一张”合规友好”的基础设施栈草图，可以作为 2026–2028 年新建系统的参考：

┌─────────────────────────────────────────────────────────┐
│  模型注册中心（Model Registry + Model Card + 系统卡）      │
│  - 训练数据血缘 hash                                      │
│  - 算力 / 能耗 / 碳排记录                                 │
│  - 评测与红队报告归档                                     │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  网关层（Gateway：路由 + 鉴权 + 审计）                     │
│  - 按地区路由（EU / CN / US / APAC）                      │
│  - Prompt/Output 全量结构化日志（含脱敏）                  │
│  - PII Detector / 内容过滤器                              │
│  - 水印注入（C2PA / SynthID）                             │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  推理引擎（vLLM / SGLang / 国产 backend）                 │
│  - 可关闭的调试日志                                        │
│  - KV 加密选项（敏感场景）                                 │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  审计 / 回归 / 红队流水线                                  │
│  - 每日 red-team harness 回放                             │
│  - 行为指标监控（越权、幻觉、偏见）                        │
│  - 事件响应 runbook                                       │
└─────────────────────────────────────────────────────────┘

这不是一个”新产品”，而是把第 22（网关）、第 23（可观测）、第 24（合规安全）的能力按合规视角重新组织一遍——合规是一种视角，不是一个新模块。

9.5 工程师日常会增加的工作

一些具体会落到工程师手里的事：

每个新模型上线前，填模型卡 + 系统卡并过安全评审。
每次 prompt 模板改动要做一遍红队回归（几百条对抗样本）。
每次训练数据新增要更新血缘文档，必要时申请数据合规复核。
给监管方留出”一键导出某租户最近 N 天全部 prompt/输出”的接口。
Agent 工具白名单化，默认拒绝，例外批准。

这些事如果初期不做，后期补的代价是 10×。

十、工程师路径

10.0 学习曲线与路径可视化

10.1 四级能力图谱

10.2 入门（0 → 0.5 年）

最低目标是自己能从 0 到 1 跑一个可用的 LLM 应用。

先跑起来：用 Ollama / llama.cpp 在本地跑 Qwen3-4B / Llama-3.2-3B。
再理解：读 Andrej Karpathy 的 nanoGPT，自己手写一个 GPT-2。
然后推理：把 Qwen3-7B 放到一张 4090 上，用 vLLM 跑 OpenAI 兼容 API。
最后 Agent：用 LangGraph 或 LlamaIndex 写一个”搜索 + 摘要”Agent，全链路接 LangSmith/Langfuse 看 trace。

核心心法：不要从论文开始，从一个能跑的项目开始。项目迭代两三轮后再回头读论文，理解会深得多。

10.3 中级（0.5 → 2 年）

目标是对推理引擎或训练框架的某一层形成肌肉记忆。

选一条线：推理（vLLM/SGLang）or 训练（Megatron-LM/DeepSpeed/torchtitan）or Agent（LangGraph/AutoGen/MetaGPT）。
提一个 PR：往你选的开源项目提一个真实 PR，修个 bug 也行，加个 feature 也行。这是从用户到贡献者的分水岭。
做一次量化：拿一个 70B MoE 模型（比如 Mixtral、Qwen3 MoE），跑一遍 AWQ 或 GPTQ，测质量和吞吐。
做一次压测：搭一个 2 卡 A100/H100 推理服务，用 genai-perf 或自写脚本打到 OOM、打到延迟抖动，理解瓶颈在哪。

10.4 高级（2 → 5 年）

目标是能主导一个训练或推理的系统级决策。

能写算子：能用 Triton 写一个 FlashAttention v2 简化版、一个融合 GEMM。
能调网络：NCCL 参数怎么调，P2P/TREE/RING 算法什么时候用哪个，能画出 NCCL trace。
能设计调度：给定集群、模型矩阵、SLO，能出一份推理部署拓扑方案，含路由、缓存、容灾。
能带新人：把前面这些沉淀成团队手册。

10.5 专家（5+ 年）

目标是跨维度：

算法维度：知道下一代模型要什么能力；
系统维度：知道下一代硬件能给什么；
产品维度：知道用户真正要为什么付费；
组织维度：能带一个 10–50 人的团队。

这一层人的价值不是”代码写得多快”，而是判断力——在硬件迭代、架构迭代、监管迭代三轴同时变化时，决定哪些事值得投入。

十一、推荐资源

以下是一份精挑的清单，所有链接都是经得起时间考验的。

11.1 必读论文

系统 / 推理：
- FlashAttention / FlashAttention-2 / FlashAttention-3
- PagedAttention（vLLM 原论文）
- SGLang（RadixAttention）
- TensorRT-LLM 技术报告
- Megatron-LM 3D 并行、ZeRO-3、ZeRO-Infinity
- DeepSpeed-Inference、DeepSpeed-FastGen、Splitwise（Prefill/Decode 分离）
- Medusa / EAGLE / SpecDecoding 系列
模型：
- LLaMA / LLaMA 2 / LLaMA 3 技术报告
- DeepSeek-V2 / DeepSeek-V3 / DeepSeek-R1
- Mixtral 8x7B / 8x22B
- Qwen / Qwen2 / Qwen3 技术报告
- GPT-4 Technical Report、o1 System Card、GPT-4o System Card
- Gemini 1.5 / Gemini 2.5
- Claude 3 / Claude 4 model card
架构创新：
- Mamba / Mamba-2、RWKV v6/v7、Jamba
- Infini-attention、Ring Attention
- LLaDA、Mercury（Diffusion LLM）
对齐：
- InstructGPT、Constitutional AI、DPO、RLAIF、PPO for LLM

11.2 课程

Stanford CS25: Transformers United（每年都更新，嘉宾全是一线作者）
UC Berkeley CS294-158 / Full Stack Deep Learning
MIT 6.S965 TinyML / 6.S191 Intro to Deep Learning
CMU 11-667 Large Language Models
Stanford CS336 Language Modeling from Scratch
李宏毅生成式 AI 课程（中文社区入门最友好）
邱锡鹏《神经网络与深度学习》（中文教材首选）

11.3 开源项目

推理：vllm、sglang、TensorRT-LLM、lmdeploy、llama.cpp、mlc-llm、exllamav2、ktransformers
训练：Megatron-LM、DeepSpeed、torchtitan、ColossalAI、Nemo、OpenRLHF、verl
微调：axolotl、LLaMA-Factory、unsloth、trl
Agent：LangGraph、LlamaIndex、AutoGen、OpenAI Swarm、MetaGPT、CrewAI、Agno
评估：lm-eval-harness、opencompass、genai-perf
可观测：Langfuse、Arize Phoenix、Helicone、LangSmith

11.4 长期值得追的博客 / 公众号

HuggingFace Blog（每周都有干货）
Lilian Weng（lilianweng.github.io，基础理论一绝）
Sebastian Raschka（magazine.sebastianraschka.com）
Chip Huyen（huyenchip.com，系统视角）
Simon Willison（simonwillison.net，应用视角）
苏剑林科学空间（kexue.fm，中文理论深度第一）
张俊林（知乎，LLM 综述最勤奋作者之一）
微信公众号：机器之心、新智元、量子位、AI 前线、AI 大模型实验室

11.5 社区

Twitter/X：关注一线作者本人（Tri Dao、Woosuk Kwon、Ying Sheng、Woosuk、Horace He、Sasha Rush、Sebastian Raschka）
中文社区：Hugging Face 中文区、DataFun、Datawhale、魔搭 ModelScope 社区
线下：CCF-ChinaSys、OSDI/SOSP/MLSys、BAAI 大会、世界人工智能大会 WAIC

十二、系列 25 篇索引

把整个系列按六个部分重梳一次，方便读者当目录用。

12.1 第一部分：硬件与互联（01–04）

12.2 第二部分：训练工程（05–10）

12.3 第三部分：推理引擎（11–16）

12.4 第四部分：RAG 与 Agent（17–20）

12.5 第五部分：服务化与运营（21–24）

12.6 第六部分：趋势（25）

25 大模型基础设施未来（本篇）

十三、案例推演：2028 年的一天

为了让前面八条趋势更具象一些，给一个虚构但基于现有技术路线可推演的场景——2028 年春天，一家中等规模 SaaS 公司的一天。

13.1 产品形态

这家公司叫”X 云文档”，用户 500 万 MAU，核心产品是文档协作。2026 年时他们接了 GPT-4 API 做 “AI 助手”，2028 年已经演化成：

端侧 Copilot：用户电脑/手机上跑一个 3B MoE（Qwen4 家族），负责文本补全、语法检查、隐私敏感命令。
云端 Agent：70B MoE + o 系列推理模型，负责跨文档总结、调用第三方工具（Salesforce、GitHub、飞书）、生成演示视频。
视频生成副产品：用户输入大纲，系统生成 60 秒讲解视频（世界模型 + 虚拟讲师）。

13.2 基础设施拓扑

┌──────────────── 用户侧 ────────────────┐
│ Mac / iPhone / Android                  │
│   - 3B MoE，MLX / ExecuTorch            │
│   - 会话 KV 本地持久化（加密）            │
└───────────┬─────────────────────────────┘
            │ 加密会话同步
            ▼
┌──────────────── LLM 网关 ────────────────┐
│ Envoy + AI Gateway Mesh                  │
│   - 路由：端/云/哪家模型                  │
│   - 预算：按 tenant 级 reasoning_budget   │
│   - 合规：EU AI Act + 中国备案切换         │
└───────────┬─────────────────────────────┘
            ▼
┌──────────────── 推理集群（国内）──────────┐
│ 昇腾 910D + 国产 MTT S5000                │
│   - Prefill 池 / Decode 池分离            │
│   - DeepSeek-V5 / Qwen4-MoE               │
│   - 视频 DiT 集群（独立）                  │
└───────────┬─────────────────────────────┘
            ▼
┌──────────────── 推理集群（海外）──────────┐
│ Rubin R200 + MI450                        │
│   - Llama 5 / Claude 5 / GPT-6-open       │
│   - 同一套 vLLM/SGLang fork               │
└──────────────────────────────────────────┘

13.3 一个请求的生命周期

用户在 iPad 上说：“帮我把这季度的销售数据整理成一份 3 页 PPT，再生成一段 30 秒讲解视频，发给老板。”

端侧 3B 识别意图，拆解为 4 个子任务：查数据 → 写提纲 → 做 PPT → 生成视频。判断”都需要云”，转发云端 Agent。
LLM 网关 根据 tenant 策略，把子任务分发：
- “查数据”调 Salesforce MCP Server；
- “写提纲”路由到国内 Qwen4-MoE（数据不出境）；
- “做 PPT”调公司自研 PPT Agent；
- “生成视频” 路由到视频 DiT 集群。
推理引擎 在 prefill 集群把用户的 30 万 token 历史文档塞进 KV Cache（前缀命中率 92%），decode 集群并发产出大纲（reasoning_effort=medium，5k 思考 token）。
视频 DiT 以提纲为条件生成 4 段 8 秒 clip，拼接为 32 秒，用户侧 Mac 做最后一公里的剪辑与字幕。
观测：Langfuse 记录 trace，成本 0.18 美元，TTFA 26 秒。
审计：合规网关把”涉及客户数据”部分标记留存 6 个月；视频打 C2PA + SynthID 水印。

13.4 工程师视角的启示

这套流程里，每一层都是前 24 篇讲过的东西：PagedAttention、Disaggregation、MoE、MCP、Gateway、观测、合规。未来不是把这些替换掉，而是把它们组合得更顺滑、更便宜、更安全。

下一个十年的赢家，是能把”现有栈 × 新硬件 × 新架构”拼成一个可运营产品的团队——不是只会造锤子，也不是只会钉钉子，而是能持续根据任务换手里的工具。

十四、一些劝退与劝进

这部分写给考虑进入这个领域的同学，也写给在这个领域里有点迷茫的同事。

14.1 劝退：以下情况谨慎

“我想蹭 AI 红利赚快钱”：基础设施层的红利窗口已经缩窄，容易被上下游挤压；想赚快钱不如去做应用层或做 Agent 产品。
“我不想碰底层，只想调 API”：调 API 当然能做出好产品，但不算基础设施工程，职业路径在另一条线上。
“我想 6 个月速成”：这个领域的复合度太高——算法、系统、硬件、产品——速成容易只会一层的八股，简历看着好看，上手就漏。
“我只想读论文”：读论文是这行的入场券，但光读论文不写代码不部署产品，这里没有位置。

14.2 劝进：以下情况强烈推荐

你对”让一个东西跑得更快”有执念：基础设施工程的底色就是 profiling。
你不害怕跨层：愿意从 Python 一路调试到 CUDA kernel，再一路追到 NCCL 抓包。
你能忍受”一周一变”：新论文、新模型、新卡，周周都要学。
你喜欢开源：这行的知识主要流通在 GitHub Issues、arXiv、Twitter 和几个 Slack/Discord 里，不是在教科书里。
你想参与一件长期有意义的事：AI 基础设施不是一次性机会，是接下来 20 年计算范式的主战场。

14.3 三条个人建议

每年挑一件”硬一点”的事完成。比如：今年读完 vLLM 源码并提一个 PR；明年训一个 3B 从零；后年在国产卡上跑通一个 70B 推理。每一件事做完，你的能力边界都会被撑开一大圈。
动手比囤课有用。不要买 20 门课，买 2 门并做完 lab。
写出来。写代码、写博客、写 PR description。写作逼你把”我以为我懂”变成”我确实懂”。

十五、结语

写到这里，25 篇收尾。

四年前我们还在讨论”GPT-3 API 怎么接”。四年后我们在讨论”千卡集群 MFU 怎么从 45% 推到 55%““推理单位 token 成本怎么从 1 分钱砍到 1 厘”。再往后四年，我们大概率会在讨论一些今天还没有名字的东西——也许是”世界模型的 PagedAttention”，也许是”Agent OS 的 cgroup v3”，也许是”国产 Rubin 的 FP4 MFU”。

这个系列从第 01 篇开始，一直在重复一个动作：把一个看起来很大的话题，拆到能动手的粒度。GPU 不神秘，它就是 SM + HBM + NVLink 三样东西的组合；训练不神秘，它就是前向 + 反向 + 通信 + checkpoint 的循环；推理不神秘，它就是 prefill + decode + KV 管理 + 调度的流水线；Agent 不神秘，它就是 LLM + 工具 + 状态 + 控制流的状态机。所有”新概念”，都是这些基本件的新组合。

15.1 三个不会变的判断

四年变化如此剧烈，还有什么是可以确定的？我赌三件事：

算力永远不够用。只要模型能变强，钱就会被投入进去，直到物理极限。所以”怎么把算力用好”永远是工程显学。
开源永远不会死。过去三年开源追上闭源的速度一次比一次快，工程师生态的赢家永远是开源。
中间层永远有机会。再强的模型也需要网关、可观测、缓存、调度、合规——这是基础设施工程师长期的根据地。

15.2 两件事不会变

无论名字怎么变，有两件事不会变：

基础设施没有终点。每一代硬件解决的是上一代算法的瓶颈，每一代算法提出的是下一代硬件的挑战。你永远可以比上一代的自己做得更便宜、更快、更稳、更安全 10×。
最值钱的能力永远是”把复杂问题拆到能动手的粒度”。不管是 Transformer 还是 Mamba，不管是 H100 还是 910C，不管是 Agent 还是 World Model，能把一个大问题拆成 profile → bottleneck → fix → measure → repeat 的人，永远稀缺。

15.3 一句送别

感谢一路读到这里的你。写 25 篇的过程，也是一次自己的复盘——每一篇都逼着我重新问自己”这件事我真的懂吗”。这种追问是基础设施工程师最好的习惯。

如果这个系列能让你在某一次 on-call、某一次选型会议、某一次架构评审里，多想了一步或多说了一句——那它就值得写。

祝你在下一代基础设施里，也能写出一行让自己得意的代码，也能在半夜三点被告警叫醒时，嘴角先骂一句然后自信地 kubectl logs。

基础设施没有终点，只有比上一代便宜 10×。

系列完。

参考资料

OpenAI, “Learning to reason with LLMs”（o1 system card）, 2024.
DeepSeek-AI, “DeepSeek-V3 Technical Report”, 2024.
DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL”, 2025.
Kwon et al., “Efficient Memory Management for Large Language Model Serving with PagedAttention”, SOSP 2023.
Zheng et al., “SGLang: Efficient Execution of Structured Language Model Programs”, 2024.
Dao, “FlashAttention-2 / FlashAttention-3”, 2023/2024.
Gu & Dao, “Mamba / Mamba-2”, 2023/2024.
Lieber et al., “Jamba: A Hybrid Transformer-Mamba Language Model”, 2024.
Nie et al., “LLaDA: Large Language Diffusion Model”, 2025.
NVIDIA, “Blackwell / Rubin Architecture Whitepaper”, 2024–2026.
EU, “AI Act”, Regulation (EU) 2024/1689.
国家网信办等, 《生成式人工智能服务管理暂行办法》, 2023.
Lilian Weng, “LLM Powered Autonomous Agents”, 2023.
Chip Huyen, “AI Engineering”, O’Reilly, 2024.

上一篇：成本、合规与安全 下一篇：返回系列首页

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / ai-infra

文章导航

目录