土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】25:大模型基础设施未来

文章导航

分类入口
architectureai-infra
标签入口
#llm#infra#outlook#world-model#agentic-os#rubin#mamba#diffusion-llm#edge-llm#chip#career#ai-act

目录

写在最前

这是本系列的第 25 篇,也是收官篇。

前 24 篇我们从 GPU 体系结构、CUDA 生态、互联网络讲到训练并行、MoE、RLHF;从推理引擎、PagedAttention、vLLM/SGLang 讲到量化、推测解码、长上下文;从 RAG、向量库、Agent 讲到网关、观测、成本与合规。整整六个大部分,把一个大模型基础设施工程师在 2026 年上半年需要掌握的知识骨架铺了一遍。

但基础设施这件事永远没有”学完”的一刻。2022 年 11 月 ChatGPT 发布时,我们还在讨论”Transformer 推理能不能 batch”;两年半后,我们在讨论”推理时 Scaling 应该用几棵树”“国产千卡集群跑 DeepSeek-V3 的 MFU 能到多少”“Blackwell 的 FP4 实战能省多少成本”。下一次大的变盘不会让我们等太久。

这一篇不讲具体技术实现,而是从一位在工程一线的视角,把未来 3–5 年可见的演进方向、工程师的成长路径、值得长期追的资源都梳理一遍,给读者一张”接下来往哪走”的路线图。

全文按”先复盘四年拐点 → 八条趋势 → 工程师路径 → 资源 → 系列索引 → 案例 → 劝退劝进 → 结语”的顺序展开。每一条趋势都尽量给出对基础设施栈的具体影响可操作的工程建议,避免”预测”变成”猜谜”。你可以选择顺读,也可以挑自己最关心的趋势跳读——但十二节的”系列索引”建议留到最后,那是系列的完整目录,回看全景时最有用。

一、回顾:2022–2026 四年关键拐点

先把过去四年的时间轴钉在一张表上,每一个拐点都对应基础设施栈一次大的”翻篇”。

时间 事件 基础设施层面的影响
2022.11 ChatGPT 发布 推理服务化成为新学科;GPU 价格飙升
2023.02 LLaMA 泄露 开源生态起点;消费级 GPU 跑大模型成为可能
2023.06 vLLM / PagedAttention 论文 推理吞吐一夜 10× 提升
2023.09 FlashAttention-2 / GPTQ / AWQ Attention 与量化进入工程常态
2024.02 Sora 发布 视频生成成为”下一个 ChatGPT”预期
2024.05 GPT-4o / Llama-3 / DeepSeek-V2 多模态端到端 + MoE 开源重塑训练范式
2024.09 o1 预览 推理时 Scaling 登上舞台
2024.12 DeepSeek-V3 / Gemini 2.0 5M 美金训 670B MoE;推理成本再降 10×
2025.01 DeepSeek-R1 / Blackwell B200 量产 开源推理模型追平 o1;FP4 成为新基准
2025.05 Qwen3 / Claude 4 / Grok 3 多供应商并举;Agent 能力进入主流
2025.09 GPT-5 / Gemini 3 推理预算成为一级超参
2026.Q1 Rubin R100 / MI400 样机 下一代训练卡定型

从基础设施栈的角度看,这四年做对了三件事:

  1. 把”推理”从训练的附属品,抬成了独立学科。 PagedAttention、Continuous Batching、Speculative Decoding、Disaggregated Prefill/Decode 都是 2023 之后才系统化的。
  2. 把”训练万卡”从 Google/OpenAI 的专利,变成了任何一家认真做模型的公司的基本功。 Megatron-LM、DeepSpeed、以 FSDP 为核心的开源栈、加上国产千卡/万卡集群的量产,让 100B+ 模型训练进入”有钱就能做”的阶段。
  3. 把”成本”从 CFO 的烦恼,变成了工程师的 KPI。 单位 token 成本每年 10× 下降,这个数字的背后全是系统工程师、Kernel 工程师、量化工程师的肉搏。

接下来 3–5 年的趋势,延续着这三条线索,但在每一条上都会出现新的分叉。

二、趋势一:推理时 Scaling(Test-time Compute)

2.0 一张图概览

2026→2030 路线图概览

2.1 范式固化

2024 年 9 月 o1 出现之前,业界还在争论”Scaling Law 是不是到头了”。o1 给出的答案是:预训练的 Scaling 也许放缓了,但推理时计算这条轴刚刚开始。2025 年 DeepSeek-R1、Qwen QwQ、Kimi K1.5、Gemini 2.5 Thinking、Claude 4 Thinking 全面跟进,这条范式已经固化。

典型推理时 Scaling 有三类:

2.2 对基础设施的新要求

对推理引擎来说,这三类都指向同一件事:一次”请求”的算力消耗不再可预估。一个数学题可能 500 token 出答案,也可能 5 万 token 思考后给答案;一个 Agent 任务可能只调一次模型,也可能在树搜索里调 200 次。

这带来四个基础设施层面的挑战:

  1. KV Cache 压力剧增。Long CoT 一条 32K–128K 是常态,单条请求的 KV 占用可能比以前一整个 batch 还多。长上下文引擎(16 篇讲过的 PagedAttention + Prefix Cache + Disaggregation)从”可选优化”变成”必选项”。
  2. Scheduler 要理解”推理预算”。用户可以指定 reasoning_effort=low|medium|high,或者 max_thinking_tokens=8192。网关和引擎都要把这个作为一等参数,用于配额、计费、SLO。
  3. 多分支并行需要引擎原生支持。SGLang 的 fork / RadixAttention、vLLM 的 Prefix Cache、Outlines 的受约束采样,这些组合在一起才能让 Best-of-N 和 MCTS 不线性爆炸成本。
  4. PRM / Verifier 成为第二个在线模型。除了主模型,你还要部署一个小一些的 Reward/Verifier 模型,两者异构共存,还要低延迟通信。典型部署会把 Verifier 放到同集群的小卡(L20、4090、910B)上。

伪代码上,一次 Best-of-N + PRM 的推理大致长这样:

async def reason_with_budget(prompt: str, budget: int = 8):
    shared = await llm.prefill(prompt)          # 前缀共享
    branches = await llm.sample(shared, n=budget, max_tokens=4096)
    scores = await prm.score_batch(prompt, branches)
    best = branches[int(np.argmax(scores))]
    return best

关键词是 shared prefixbatch samplingPRM 并行评分。三件事都要引擎原生支持,否则成本会线性爆炸。

2.4 一个最小可运行示例

SGLang 原生支持 fork,做并行分支非常自然:

import sglang as sgl

@sgl.function
def reason_multi(s, question, n=5):
    s += "Question: " + question + "\n"
    forks = s.fork(n)
    for i, f in enumerate(forks):
        f += f"\n[Attempt {i}]\n"
        f += sgl.gen("answer", max_tokens=2048, temperature=0.8)
    forks.join()
    s += sgl.gen("final", max_tokens=512,
                 prompt="Pick the best answer from above:\n" +
                        "\n".join(f["answer"] for f in forks))

配合 RadixAttention,共享前缀的 KV 只计算一次,N 条分支的实际成本约为 prefix_cost + N × branch_cost,而不是 N × (prefix_cost + branch_cost)——这一点优化对 Best-of-N 至关重要。

2.5 经验数字

从 2025 年多家厂商的公开/内部数据,可以给一组粗略经验(仅供量级参考):

推理模式 平均输出 token 相对基线成本 质量提升(数学/代码基准)
普通 CoT 500 +0%
Long CoT(o1-mini 档) 3000–8000 +15–25 分
Best-of-8 500 × 8 ~6× +8–15 分
MCTS(深度 5×宽度 4) ~10000 15× +20–30 分
Long CoT + Best-of-4 20000+ 30× +25–40 分

成本翻 10–30 倍换来质量提升 20–40 分,这就是”推理预算”这个一级超参背后的 trade-off。在生产里通常做成:免费版走普通 CoT,付费版走 Long CoT,企业版按需开 MCTS。

2.6 工程影响

三、趋势二:世界模型与视频生成

3.1 从 LLM 到 World Model

2024 年 Sora 让视频生成进入”演示级”,2025 年 Veo 3、Kling 2、Vidu Q1、可灵、Pika 进入”可商用级”,2026 年的关键词是 世界模型(World Model):不只是生成视频,而是生成”可交互、可预测物理、可被 Agent 调用”的 4D 世界。代表作:

3.2 技术栈

主流视频/世界模型走 DiT(Diffusion Transformer)+ 3D VAE + Rectified Flow 路线:

  1. 3D VAE:把 H×W×T 的原始视频压到 h×w×t 的 latent(压缩比 8×8×4 或 16×16×8)。
  2. Patch 化 + 位置编码:latent 切 patch,加 3D RoPE 或 NaViT 式变长编码。
  3. DiT 主干:纯 Transformer,条件通过 AdaLN 或 cross-attention 注入。
  4. Flow Matching / Rectified Flow 训练:比 DDPM 更稳定、步数更少。

3.3 成本量级

以一个”类 Sora 1”的 5B DiT 为例,给一个粗略的成本口径(只做量级参考):

阶段 数据量 计算量 H100-hour 美元(按 2026 云价 1.5 USD/H100h)
预训练 ~100M clip × 5s × 24fps ~1e23 FLOPs ~50 万 ~75 万
微调 ~1M clip 精标 ~5e21 ~2.5 万 ~4 万
单条 5s 720p 推理 - ~1e15 ~0.02 ~0.03

这意味着:

3.5 视频推理的新瓶颈

LLM 推理的三大瓶颈(KV、显存带宽、通信)在视频世界里换了名字:

一个典型 720p/5s 视频生成的引擎层优化收益(以 5B DiT 为例):

优化 延迟 显存 备注
朴素 DDPM 50 步 90s 80GB baseline
Flow Matching + 25 步 45s 80GB -50% 延迟
+ TeaCache 28s 80GB feature 复用
+ FP8 权重 25s 42GB 能上单张 H100
+ TP2 14s 2×22GB 多卡可扩
+ 蒸馏到 4 步(DMD2) 4s 22GB 质量略降

这组组合拳里,每一条都需要推理引擎原生支持——这就是 vLLM/SGLang 团队 2025 年底开始增加多模态/视频后端的原因。

3.4 机器人与具身

世界模型与机器人基础模型(Robotics Foundation Model)会合流:

这对基础设施意味着:推理要从云端下沉到边缘,延迟从 100ms 级压到 10ms 级,端侧跑世界模型而云端跑规划——这是端云协同下一个爆发点。

四、趋势三:Agentic OS / Agentic Infra

4.1 Agent 成为一等公民

过去我们把 LLM 当函数调用,把 Agent 当应用层。未来 3 年,Agent 将从应用层渗透到系统层,出现 Agentic OS

这里面基础设施的关键词不是”Agent 框架”,而是 Agent Runtime:一个能长时运行、有状态、有权限、可审计、可被多 Agent 共享的运行时。

4.2 MCP 生态固化

第 20 篇讲过 Model Context Protocol(MCP)。2025 下半年到 2026 上半年,MCP 从 Anthropic 一家推变成 OpenAI、Google、Microsoft 全都跟进,定位相当于 “Agent 时代的 LSP”。未来一两年几乎可以确定的事:

4.3 OS 级沙箱

Agent 能执行任意代码和点击任意按钮,安全模型必须重写。目前的工程实践:

一个生产级 Agent 平台的隔离分层长这样:

┌─────────────────────────────────────────┐
│ 用户/租户隔离(namespace、quota)         │
├─────────────────────────────────────────┤
│ 会话级 microVM(Firecracker,<200ms 启动)│
├─────────────────────────────────────────┤
│ 进程级 seccomp + eBPF 策略               │
├─────────────────────────────────────────┤
│ 文件系统 overlayfs + 只读基础镜像         │
├─────────────────────────────────────────┤
│ 网络 egress 白名单 + TLS MITM 审计       │
└─────────────────────────────────────────┘

4.4 Agent Runtime 的技术栈

一个生产级 Agent Runtime 通常由以下几层组成:

  1. 会话存储:短期记忆放 Redis,长期记忆进向量库 / 图库,ckpt 走对象存储。LangGraph 的 checkpointer 抽象是一个不错的模板。
  2. 任务调度:长时任务通常跑几分钟到几小时,需要类似 Temporal / Dagster 的”可恢复工作流”而不是简单的 task queue。
  3. 工具执行器:MCP Server 池 + 沙箱池。MCP 侧重协议,沙箱侧重隔离。
  4. 观测与计费:每一次工具调用、每一次模型调用、每一次沙箱启动都要可审计、可计量。

一个最小的 Agent Runtime 接口长这样:

class AgentRuntime:
    async def create_session(self, user, policy) -> Session: ...
    async def step(self, session, input) -> Action: ...
    async def exec_tool(self, session, tool, args) -> ToolResult: ...
    async def checkpoint(self, session) -> bytes: ...
    async def restore(self, blob) -> Session: ...
    async def destroy(self, session) -> None: ...

把这个抽象画清楚了,上层框架(LangGraph / AutoGen / CrewAI / OpenAI Agents SDK)都只是不同风格的 DSL。基础设施工程师要盯住的是 Runtime,不是 DSL

五、趋势四:专用芯片与国产替代

5.1 NVIDIA:Rubin 路线

Blackwell(B100/B200/GB200)在 2025 年完成铺货,2026 年开始进入 Rubin 世代:

其中 Rubin CPX 值得特别关注:NVIDIA 第一次承认prefill 和 decode 应该用不同硬件,这和我们在第 12/21 篇讲的 Disaggregated Serving 是同一个故事,只是现在从软件走到了硬件。

5.2 AMD、Intel、专用 ASIC

专用 ASIC 的逻辑是:如果架构固定 5 年不变,ASIC 可以比 GPU 快 5–10×。这个赌局在 SSM/Mamba 成熟后会承压,但短期(2026–2027)Transformer 的地位稳固。

5.3 超大规模自研

5.4 中国:国产替代的工程现状

出口管制持续收紧的背景下,国产替代不再是”口号”,而是工程现实:

厂商 旗舰卡 对标 工程现状(2026 Q1 口径)
华为昇腾 910B / 910C A100 / H100 DeepSeek、Qwen、盘古大规模跑通;CANN/MindSpore 生态成熟度提升
寒武纪 思元 590 A100 推理为主;部分互联网客户量产
摩尔线程 MTT S4000 A100 MUSA 生态;千卡集群样板落地
燧原 云燧 i20 / L600 L40S / A100 推理为主;与百度/字节合作
壁仞 BR100 系列 H100 推理 出口管制下回归国内市场
沐曦 曦云 C500 A100 / H100 推理客户逐步扩大
海光 深算 DCU Z100 MI200 ROCm 兼容路线

工程视角的几条经验:

  1. 训练端:昇腾 910B/C 是目前唯一能跑起万卡级训练的国产方案。DeepSeek-V3、Qwen 系列在昇腾集群上有正式验证。
  2. 推理端:百花齐放,场景化明显。90% 国产推理部署集中在 70B 以下 MoE / Dense,通过 AWQ/GPTQ 量化到 INT8 即可匹配 A100 FP16 的质量。
  3. 生态短板:CUDA 生态的 10 年积累不是一两代硬件能补齐的。工程师最大的痛点不是算力,而是”同一份代码跑两套卡”——未来 3 年围绕 Triton 国产后端、PyTorch 2.x inductor 多后端、vLLM/SGLang 的国产化 backend 会有大量工程工作。
  4. 组网和调度:国产方案的 NVLink 等价物(HCCS、MetaLink、灵汐互联)带宽和拓扑都在快速收敛到 NVLink/NVSwitch 可比水平,真正的差距在软件栈稳定性。

5.5 选卡决策矩阵

一张 2026 年的”选卡建议表”,供工程团队做采购时做参考——不是权威榜单,只是从基础设施工程视角的经验归纳:

场景 首选 次选 备注
200B+ 预训练 H200 / B200 / Rubin 昇腾 910C(国内) NVLink 带宽是决定因素
70B MoE 训练 H100 80G 910B、MI325X FP8 支持是加分项
70B MoE 推理(高 QPS) H100 / B200 910C PagedAttention 原生支持
7–13B 推理(低成本) L40S / 4090 / A10 MTT S4000、沐曦曦云 显存 ≥ 48G 才能 batch 大
长上下文 prefill Rubin CPX / H200 MI325X 显存容量主导
Edge 推理 Jetson Orin / Apple Silicon 手机 NPU 端侧生态优先
专用 Transformer 极致延迟 Groq、Etched Sohu Cerebras 架构锁定风险

决策的一个简化框架:

  1. 先问是训练还是推理。训练几乎只能 NVIDIA + 昇腾二选一;推理选择多。
  2. 再问是 prefill 还是 decode 瓶颈。Prefill 拼算力,decode 拼显存带宽。
  3. 最后算两年 TCO。按 2 年折旧 + 电费 + 运维人力一起算,很多便宜卡算下来并不便宜。

5.6 国产适配的几个实操点

真正把一个模型”搬上国产卡”的时候,绕不开的工程点:

  1. 算子覆盖:先用 torch._dynamo / torch.export 打一份完整算子清单,对照厂家 SDK 的算子列表查漏;缺的算子要么 fallback CPU,要么手写。
  2. 通信原语:NCCL 的 all_reduce / all_gather / reduce_scatter 需要对应到 HCCL/MCCL 等国产通信库,拓扑适配常踩坑。
  3. 精度对齐:FP16/BF16 在不同硬件上精度模型不同,特别是 softmax、layernorm 这些敏感算子,一个集群训练几天后 loss 曲线抖动,80% 是精度问题。
  4. 调度器:千卡级国产集群常缺成熟的调度器(K8s+Volcano、PAI、Slurm 都有短板),实际落地时自研补齐的情况很多。

六、趋势五:架构创新

6.1 SSM / Mamba / RWKV 的持续冲击

Transformer 在 2017 年发表,到 2026 年已经 9 年”不倒翁”。挑战者一直在排队:

纯 SSM 仍然在”能否追上 Transformer 质量”上有争议,但Hybrid 架构已经被证明可行:

6.2 Diffusion LLM

2025 年另一个有趣信号是 Diffusion LLM

Diffusion LLM 在推理基础设施上意味着另一种范式:并行生成而不是顺序生成,KV Cache 可能不再必要,取而代之的是多步”去噪”。这会让第 12–15 篇讲的 PagedAttention/Speculative 那一整套优化需要重新设计。如果 Diffusion LLM 真的成立,现有推理引擎会有一次大重写。

6.3 长上下文的架构内解

回到第 16 篇讨论过的长上下文:

趋势:“注意力 + KV Cache 线性扩大”的老路走不动了,未来 2–3 年会看到架构内的长记忆方案成为主流,基础设施的焦点会从”把 KV Cache 压缩好”转到”把长期状态管理好”。

6.4 对基础设施的连锁反应

一张”架构假设 vs 基础设施组件”的依赖表,可以提前识别哪些栈会被影响:

架构假设 若被打破,受影响的组件
Attention 是主力算子 FlashAttention 系列、Etched Sohu 这类 ASIC
KV Cache 是推理核心状态 PagedAttention、Prefix Cache、Disaggregation
顺序生成 / 自回归 Continuous Batching、推测解码、MTP
全局 softmax 依赖 混合精度策略、在线 softmax kernel

例如 Diffusion LLM 如果胜出,前三行全部被颠覆——也就是说 vLLM/SGLang 里 70% 以上的核心代码会需要重写。基础设施工程师的价值就在于能在这种范式切换来临前做好”可插拔化”设计,让引擎不至于被一条架构线绑死。

6.5 短期下注建议

给工程团队的一个务实建议:

不要在风向不明时押死一条架构,但要把引擎设计成可换主干的。

七、趋势六:小模型与端侧

7.1 小模型的崛起

2024–2025 年最被低估的趋势是小模型质量的飞跃

模型 参数 2026 Q1 水平
Phi-4 / Phi-5 7–14B 逼近 GPT-4 早期版本
Gemma 3 2–27B Google 开源旗舰
Qwen3-1.8B / 4B 1.8–4B 中文端侧首选
MiniCPM 4 2–8B 端侧效率之王
Llama 3.2 1B/3B 1–3B 移动端主力
SmolLM 3 1–3B Hugging Face 社区旗舰

7B 追平两年前 GPT-3.5,1.5B 追平两年前 GPT-3” 正在变成新的常识。这改变了”哪一层跑什么模型”的默认答案。

7.2 端侧推理栈

端侧不是一个新话题,但 2026 年终于落地成熟:

7.3 手机 NPU

7.4 端云协同

理想架构:

┌──────────────────────────────────────────┐
│           用户意图(语音/文本/视觉)       │
└───────────────────────┬──────────────────┘
                        ▼
         ┌────────────── 端侧小模型 ─────────────┐
         │ - 意图分类、隐私敏感任务              │
         │ - 3B 以下,ANE/NPU,<200ms            │
         └─────────────┬────────────────────────┘
                       │ 需要大能力时
                       ▼
         ┌────────────── 云端大模型 ─────────────┐
         │ - 复杂推理、工具调用、长上下文        │
         │ - 70B+ MoE,H100/Rubin,流式          │
         └───────────────────────────────────────┘

这里基础设施的机会在:端云一致的模型家族(同训练方案下的 1B/3B/8B/70B 一起出)、端云会话状态同步(KV Cache 的加密上传与对齐)、端侧监控(如何观测不在你机房的推理)。

八、趋势七:成本腰斩定律

8.1 10× / 年

2023 年底 GPT-4 大约 30 USD / 1M input tokens;2026 年初同等质量的开源模型(DeepSeek-V3、Qwen3-Max、Llama 4)以 0.1–0.3 USD / 1M input tokens 提供,两年 100× 降价,年化约 10×。

这个 10× 不是单一因素,而是四股力量叠加:

  1. 硬件:A100 → H100 → B200 → Rubin,每代大约 2–3× 性价比提升。
  2. 量化:FP16 → FP8 → FP4,每一跳 2×。
  3. 引擎:vLLM/SGLang 相比朴素 HF Transformers 的吞吐 5–20×。
  4. 模型架构:MoE、稀疏激活、共享 KV 带来的等效算力下降 2–5×。

简单相乘就是 40–200×,符合观测到的 ~100×/2 年。这个趋势至少还能延续 2–3 年,之后会进入”硬件工艺逼近物理极限、量化已到 INT2/三元、架构稳定”的收敛期。

8.2 对上层的冲击

8.3 商业模式新形态

8.4 一张”成本曲线”的直观图

一张”成本曲线”直观图

8.5 工程 checklist:当成本再腰斩时你要做什么

九、趋势八:合规与安全成为一级需求

9.1 监管落地

工程上要落地的事:

9.2 AI 审计、红队、可解释

9.3 基础设施视角的整合

第 24 篇已经深入讲过合规+安全。这里补充一个趋势性的判断:未来 2 年,合规与安全会从”项目后期补贴”变成”项目初期就要布好的底座”。具体落位到栈:

一张”合规友好”的基础设施栈草图,可以作为 2026–2028 年新建系统的参考:

┌─────────────────────────────────────────────────────────┐
│  模型注册中心(Model Registry + Model Card + 系统卡)      │
│  - 训练数据血缘 hash                                      │
│  - 算力 / 能耗 / 碳排记录                                 │
│  - 评测与红队报告归档                                     │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  网关层(Gateway:路由 + 鉴权 + 审计)                     │
│  - 按地区路由(EU / CN / US / APAC)                      │
│  - Prompt/Output 全量结构化日志(含脱敏)                  │
│  - PII Detector / 内容过滤器                              │
│  - 水印注入(C2PA / SynthID)                             │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  推理引擎(vLLM / SGLang / 国产 backend)                 │
│  - 可关闭的调试日志                                        │
│  - KV 加密选项(敏感场景)                                 │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  审计 / 回归 / 红队流水线                                  │
│  - 每日 red-team harness 回放                             │
│  - 行为指标监控(越权、幻觉、偏见)                        │
│  - 事件响应 runbook                                       │
└─────────────────────────────────────────────────────────┘

这不是一个”新产品”,而是把第 22(网关)、第 23(可观测)、第 24(合规安全)的能力按合规视角重新组织一遍——合规是一种视角,不是一个新模块

9.5 工程师日常会增加的工作

一些具体会落到工程师手里的事:

这些事如果初期不做,后期补的代价是 10×。

十、工程师路径

10.0 学习曲线与路径可视化

学习曲线与路径可视化

10.1 四级能力图谱

级能力图谱

10.2 入门(0 → 0.5 年)

最低目标是自己能从 0 到 1 跑一个可用的 LLM 应用

核心心法:不要从论文开始,从一个能跑的项目开始。项目迭代两三轮后再回头读论文,理解会深得多。

10.3 中级(0.5 → 2 年)

目标是对推理引擎或训练框架的某一层形成肌肉记忆

10.4 高级(2 → 5 年)

目标是能主导一个训练或推理的系统级决策

10.5 专家(5+ 年)

目标是跨维度

这一层人的价值不是”代码写得多快”,而是判断力——在硬件迭代、架构迭代、监管迭代三轴同时变化时,决定哪些事值得投入。

十一、推荐资源

以下是一份精挑的清单,所有链接都是经得起时间考验的。

11.1 必读论文

11.2 课程

11.3 开源项目

11.4 长期值得追的博客 / 公众号

11.5 社区

十二、系列 25 篇索引

把整个系列按六个部分重梳一次,方便读者当目录用。

12.1 第一部分:硬件与互联(01–04)

12.2 第二部分:训练工程(05–10)

12.3 第三部分:推理引擎(11–16)

12.4 第四部分:RAG 与 Agent(17–20)

12.5 第五部分:服务化与运营(21–24)

12.6 第六部分:趋势(25)

十三、案例推演:2028 年的一天

为了让前面八条趋势更具象一些,给一个虚构但基于现有技术路线可推演的场景——2028 年春天,一家中等规模 SaaS 公司的一天

13.1 产品形态

这家公司叫”X 云文档”,用户 500 万 MAU,核心产品是文档协作。2026 年时他们接了 GPT-4 API 做 “AI 助手”,2028 年已经演化成:

13.2 基础设施拓扑

┌──────────────── 用户侧 ────────────────┐
│ Mac / iPhone / Android                  │
│   - 3B MoE,MLX / ExecuTorch            │
│   - 会话 KV 本地持久化(加密)            │
└───────────┬─────────────────────────────┘
            │ 加密会话同步
            ▼
┌──────────────── LLM 网关 ────────────────┐
│ Envoy + AI Gateway Mesh                  │
│   - 路由:端/云/哪家模型                  │
│   - 预算:按 tenant 级 reasoning_budget   │
│   - 合规:EU AI Act + 中国备案切换         │
└───────────┬─────────────────────────────┘
            ▼
┌──────────────── 推理集群(国内)──────────┐
│ 昇腾 910D + 国产 MTT S5000                │
│   - Prefill 池 / Decode 池分离            │
│   - DeepSeek-V5 / Qwen4-MoE               │
│   - 视频 DiT 集群(独立)                  │
└───────────┬─────────────────────────────┘
            ▼
┌──────────────── 推理集群(海外)──────────┐
│ Rubin R200 + MI450                        │
│   - Llama 5 / Claude 5 / GPT-6-open       │
│   - 同一套 vLLM/SGLang fork               │
└──────────────────────────────────────────┘

13.3 一个请求的生命周期

用户在 iPad 上说:“帮我把这季度的销售数据整理成一份 3 页 PPT,再生成一段 30 秒讲解视频,发给老板。”

  1. 端侧 3B 识别意图,拆解为 4 个子任务:查数据 → 写提纲 → 做 PPT → 生成视频。判断”都需要云”,转发云端 Agent。
  2. LLM 网关 根据 tenant 策略,把子任务分发:
    • “查数据”调 Salesforce MCP Server;
    • “写提纲”路由到国内 Qwen4-MoE(数据不出境);
    • “做 PPT”调公司自研 PPT Agent;
    • “生成视频” 路由到视频 DiT 集群。
  3. 推理引擎 在 prefill 集群把用户的 30 万 token 历史文档塞进 KV Cache(前缀命中率 92%),decode 集群并发产出大纲(reasoning_effort=medium,5k 思考 token)。
  4. 视频 DiT 以提纲为条件生成 4 段 8 秒 clip,拼接为 32 秒,用户侧 Mac 做最后一公里的剪辑与字幕。
  5. 观测:Langfuse 记录 trace,成本 0.18 美元,TTFA 26 秒。
  6. 审计:合规网关把”涉及客户数据”部分标记留存 6 个月;视频打 C2PA + SynthID 水印。

13.4 工程师视角的启示

这套流程里,每一层都是前 24 篇讲过的东西:PagedAttention、Disaggregation、MoE、MCP、Gateway、观测、合规。未来不是把这些替换掉,而是把它们组合得更顺滑、更便宜、更安全

下一个十年的赢家,是能把”现有栈 × 新硬件 × 新架构”拼成一个可运营产品的团队——不是只会造锤子,也不是只会钉钉子,而是能持续根据任务换手里的工具。

十四、一些劝退与劝进

这部分写给考虑进入这个领域的同学,也写给在这个领域里有点迷茫的同事。

14.1 劝退:以下情况谨慎

14.2 劝进:以下情况强烈推荐

14.3 三条个人建议

  1. 每年挑一件”硬一点”的事完成。比如:今年读完 vLLM 源码并提一个 PR;明年训一个 3B 从零;后年在国产卡上跑通一个 70B 推理。每一件事做完,你的能力边界都会被撑开一大圈。
  2. 动手比囤课有用。不要买 20 门课,买 2 门并做完 lab。
  3. 写出来。写代码、写博客、写 PR description。写作逼你把”我以为我懂”变成”我确实懂”。

十五、结语

写到这里,25 篇收尾。

四年前我们还在讨论”GPT-3 API 怎么接”。四年后我们在讨论”千卡集群 MFU 怎么从 45% 推到 55%““推理单位 token 成本怎么从 1 分钱砍到 1 厘”。再往后四年,我们大概率会在讨论一些今天还没有名字的东西——也许是”世界模型的 PagedAttention”,也许是”Agent OS 的 cgroup v3”,也许是”国产 Rubin 的 FP4 MFU”。

这个系列从第 01 篇开始,一直在重复一个动作:把一个看起来很大的话题,拆到能动手的粒度。GPU 不神秘,它就是 SM + HBM + NVLink 三样东西的组合;训练不神秘,它就是前向 + 反向 + 通信 + checkpoint 的循环;推理不神秘,它就是 prefill + decode + KV 管理 + 调度的流水线;Agent 不神秘,它就是 LLM + 工具 + 状态 + 控制流的状态机。所有”新概念”,都是这些基本件的新组合。

15.1 三个不会变的判断

四年变化如此剧烈,还有什么是可以确定的?我赌三件事:

  1. 算力永远不够用。只要模型能变强,钱就会被投入进去,直到物理极限。所以”怎么把算力用好”永远是工程显学。
  2. 开源永远不会死。过去三年开源追上闭源的速度一次比一次快,工程师生态的赢家永远是开源。
  3. 中间层永远有机会。再强的模型也需要网关、可观测、缓存、调度、合规——这是基础设施工程师长期的根据地。

15.2 两件事不会变

无论名字怎么变,有两件事不会变:

  1. 基础设施没有终点。每一代硬件解决的是上一代算法的瓶颈,每一代算法提出的是下一代硬件的挑战。你永远可以比上一代的自己做得更便宜、更快、更稳、更安全 10×。
  2. 最值钱的能力永远是”把复杂问题拆到能动手的粒度”。不管是 Transformer 还是 Mamba,不管是 H100 还是 910C,不管是 Agent 还是 World Model,能把一个大问题拆成 profile → bottleneck → fix → measure → repeat 的人,永远稀缺。

15.3 一句送别

感谢一路读到这里的你。写 25 篇的过程,也是一次自己的复盘——每一篇都逼着我重新问自己”这件事我真的懂吗”。这种追问是基础设施工程师最好的习惯。

如果这个系列能让你在某一次 on-call、某一次选型会议、某一次架构评审里,多想了一步或多说了一句——那它就值得写。

祝你在下一代基础设施里,也能写出一行让自己得意的代码,也能在半夜三点被告警叫醒时,嘴角先骂一句然后自信地 kubectl logs

基础设施没有终点,只有比上一代便宜 10×。

系列完。

参考资料


上一篇成本、合规与安全 下一篇返回系列首页

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。


By .