2022 年底 ChatGPT 引爆后短短三年,LLM 基础设施从”单机跑一个 7B”演化为”万卡训练万亿参数、百万 QPS 推理、RAG 与 Agent 工业化”。工程师面对的是一整套新技术栈:CUDA、NCCL、FlashAttention、PagedAttention、3D 并行、vLLM、SGLang、TensorRT-LLM、PD 分离、KV cache、推测解码、MoE 路由、MCP、AI Gateway……大多数资料要么是论文切片、要么是厂商软文,缺一个工程师视角的系统化讲解。
这个系列就是要把”2022–2026 四年沉淀的大模型基础设施工程经验”讲清楚:训练、推理、RAG、Agent、观测、成本,从 GPU 底层到服务上层。既讲开源(vLLM、SGLang、Megatron、DeepSpeed、Ray、LangGraph),也讲商业(TensorRT-LLM、Triton、Bedrock、PAI、veMLP、千帆);中国(DeepSeek、Qwen、GLM、Kimi、豆包、文心、盘古)与全球(OpenAI、Anthropic、Meta、Google、xAI、Mistral)两条主线并举。
本系列为工程参考,不构成法律、财务或合规意见。
先问 5 个问题
真正理解 LLM 基础设施的人,不会只背组件名,而能把瓶颈、资源、失效模式和业务目标串起来。阅读本系列前,可以先用下面 5 个问题校准自己的理解深度:
- 同一台 GPU 上,为什么 Prefill 和 Decode
不能用同一套调参逻辑?
- 回答思路:从算术强度、HBM 带宽、KV Cache、TTFT / TPOT 和请求动态到达解释两阶段差异,再说明 Continuous Batching、Chunked Prefill、PD 分离分别解决什么问题。
- 要了解的知识:Transformer 自回归生成、KV Cache、Roofline、FlashAttention / FlashDecoding、调度与尾延迟。
- 一个 70B
模型能装进显存,为什么仍然可能撑不起高并发长上下文?
- 回答思路:先算权重、临时 buffer、KV Cache 与 batch 的显存账,再讨论 GQA、MLA、KV 量化、PagedAttention 和并发上限之间的关系。
- 要了解的知识:MHA / GQA / MLA、显存预算、PagedAttention、上下文长度、活跃 token 与并发模型。
- 万卡训练里,DP、TP、PP、SP、EP、ZeRO
不是都开越多越好,应该按什么选?
- 回答思路:把模型参数、激活、优化器状态、通信量、流水 bubble 和网络拓扑放在一起算,说明不同并行策略分别是在切内存、切计算还是切通信。
- 要了解的知识:3D 并行、FSDP / ZeRO、Expert Parallel、AllReduce / AllGather / All-to-All、NVLink / InfiniBand / RoCE。
- 为什么一个 RAG 系统效果差,通常不能只怪大模型或
Prompt?
- 回答思路:沿离线解析、清洗、切片、Embedding、索引、混合检索、重排、上下文组装、引用和评估逐层排查,指出每一层如何影响最终答案。
- 要了解的知识:文档解析、Chunking、向量索引、BM25、Rerank、GraphRAG、RAG 评测与权限过滤。
- 企业里接入多个模型供应商,为什么网关、观测、成本和安全会变成基础设施问题?
- 回答思路:从多租户配额、模型路由、语义缓存、Token 计费、SLO、Prompt Injection、PII 脱敏和审计解释,说明模型调用已经是可治理的生产流量。
- 要了解的知识:LLM Gateway、OpenAI 兼容 API、Guardrails、OpenTelemetry GenAI、Langfuse / LangSmith、AI 合规与安全边界。
适合谁看
- 训练工程师:3D 并行、MoE、checkpoint、RLHF
- 推理工程师:vLLM / SGLang / TensorRT-LLM、量化、PD 分离、长上下文
- RAG / Agent 工程师:向量库、GraphRAG、LangGraph、MCP、工具调用
- 平台 / SRE:服务化、网关、可观测、成本、合规
推荐阅读路径
- 硬件与系统基础 → 02 → 03 → 04
- 训练路线 → 05 → 06 → 07 → 08 → 09 → 10
- 推理路线 → 11 → 12 → 13 → 14 → 15 → 16
- RAG / Agent 路线 → 17 → 18 → 19 → 20
- 平台与运营 → 21 → 22 → 23 → 24 → 25
目录
每篇条目后的一句话,说明这篇文章真正想表达的东西,以及读者最值得带走的核心知识。
第一部分:硬件与底层
- 大模型基础设施全景:训练、推理、RAG、Agent、观测:建立硬件、系统软件、框架、应用、运营五层地图,让读者先知道每个技术点究竟解决哪一层问题。
- GPU 计算入门:SM、Tensor Core、HBM、NVLink:把 SM、Warp、Tensor Core、HBM、NVLink 与 Roofline 连起来,让读者理解 GPU 性能瓶颈来自算力、带宽和并行形态的组合。
- CUDA 生态:cuBLAS、cuDNN、NCCL、Triton、CUTLASS:拆解 CUDA 软件栈的分工,让读者知道上层框架的性能最终会落到 kernel、算子库和集合通信上。
- 互联与网络:NVLink、InfiniBand、RoCE、国产替代:解释多卡互联如何决定训练与推理的扩展上限,让读者把网络视为万卡集群里的第二计算单元。
第二部分:训练工程
- 训练全景:Pre-train、SFT、RLHF、DPO、蒸馏:串联现代 LLM 的训练阶段,让读者看清训练不是一次脚本运行,而是数据、目标函数、优化器、评测和发布组成的流水线。
- 3D 并行深度:数据 / 张量 / 流水 / 序列 / ZeRO:把 DP、TP、PP、SP、EP、ZeRO 放进内存、通信和流水 bubble 三个约束里,让读者学会按瓶颈组合并行策略。
- Megatron-LM 与 DeepSpeed:开源训练框架双雄:比较主流训练框架的职责边界和工程取舍,让读者明白框架选型取决于规模、拓扑、并行策略和团队维护能力。
- MoE 训练工程:GShard、Switch、Mixtral、DeepSeek:说明 MoE 如何用稀疏激活换取参数规模,让读者抓住路由均衡、Expert Parallel 与 All-to-All 才是真正工程难点。
- RLHF 与对齐流水线:PPO、DPO、GRPO、Reward Model:把 SFT、奖励模型、PPO、DPO、GRPO 串成对齐流水线,让读者理解对齐是在数据、奖励、采样和训练稳定性之间做工程取舍。
- Checkpoint 与故障容忍:万卡训练的分钟级恢复:把故障视为万卡训练的常态,让读者掌握 checkpoint 设计里恢复时间、存储带宽、一致性和弹性调度的平衡。
第三部分:推理工程
- 推理引擎基础:prefill、decode、KV cache、batching:从 Prefill、Decode、KV Cache 和 Continuous Batching 建立推理心智模型,让读者意识到推理优化首先是资源调度问题。
- PagedAttention 与 Continuous Batching:vLLM 的核心革新:用操作系统式的内存与调度视角解释 vLLM 的核心设计,让读者看懂显存碎片和动态请求为什么会杀死吞吐。
- vLLM / SGLang / TensorRT-LLM / TGI:主流引擎对比:对比主流推理引擎的架构、生态和部署边界,让读者学会按延迟、吞吐、功能和运维约束做选型。
- 量化工程:FP8、FP4、AWQ、GPTQ、KV 量化:从数据类型、PTQ / QAT、KV 量化到硬件支持讲清量化,让读者理解量化本质是在精度、指令能力和服务成本之间交易。
- 推测解码与 MTP:Medusa、EAGLE、Lookahead、DeepSeek MTP:解释推测解码和 MTP 如何提高 token 产出,让读者看懂加速收益受接受率、草稿模型成本和引擎实现共同制约。
- 长上下文工程:RoPE 扩展、YaRN、Ring Attention、MLA:把位置编码、稀疏 Attention、Ring Attention、KV 压缩和评测放在一起,让读者理解长上下文是训练、推理与评估共同参与的系统工程。
第四部分:RAG 与 Agent
- RAG 工程全景:召回、重排、融合、上下文压缩:铺开从文档解析到答案评估的 RAG 流水线,让读者知道准确率更多取决于数据和检索工程,而不是只靠 Prompt。
- 向量库与图 RAG:Milvus、Qdrant、pgvector、GraphRAG:比较向量、倒排和图索引的工程取舍,让读者理解索引系统是在召回、延迟、内存和可解释性之间做设计。
- Agent 框架工程:LangGraph、AutoGen、Coze、MCP 生态:梳理 Agent 的工作流、状态、记忆、工具和协议,让读者明白可靠 Agent 更像可观测状态机,而不是自由聊天循环。
- 工具调用与 MCP:JSON Schema、结构化输出、Anthropic 协议:把工具调用当成协议边界和安全边界来讲,让读者看懂 JSON Schema、结构化输出、并行调用与 MCP 的工程价值。
第五部分:服务化与运营
- 推理服务化:Triton、Ray Serve、KServe、PD 分离:从单机引擎走向生产级集群,让读者理解推理服务化要围绕 SLO、资源隔离、弹性伸缩和发布回滚组织系统。
- 大模型网关:LiteLLM、OneAPI、多云路由、成本优化:把模型调用统一成可治理入口,让读者掌握多供应商路由、配额、计费、语义缓存、Guardrails 和可观测的基础设施价值。
- LLM 可观测性:Token 计费、TTFT、Langfuse、OpenLLMetry:扩展传统 Metrics、Logs、Traces 到 token、成本、幻觉和链路质量,让读者知道 LLM 系统必须同时观测性能、语义质量和账单。
第六部分:成本、安全与未来
- 成本、合规与安全:越狱、Prompt Injection、AI Act、TEE:把成本、合规和安全作为同一个架构问题处理,让读者理解 token 账单、卡时、电费、PII、越狱和法规都会反过来塑造系统设计。
- 大模型基础设施未来:世界模型、Agentic OS、专用芯片:回看四年工程拐点并展望下一轮趋势,让读者抓住模型、硬件和平台快速变化背后仍然稳定的基础设施原则。
特别篇
- DeepSeek-V4 与国产芯片:从备份路线到主路径:把 DeepSeek 与国产芯片放进生态替代的工程问题里,让读者理解国产算力从备份路线走向主路径取决于模型、编译器、通信和云平台协同。
延伸阅读
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测
面向工程师的大模型基础设施开篇地图,覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。
【大模型基础设施工程·特别篇】DeepSeek-V4 与国产芯片:从备份路线到主路径
DeepSeek-V4 发布后,如果国产芯片已经支撑旗舰模型的关键训练或推理链路,它会怎样影响 NVIDIA 生态、国产 AI 芯片、云厂商、模型团队和工程师的技术选择?
【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏
以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。
【大模型基础设施工程】12:PagedAttention 与 Continuous Batching
vLLM 的两大核心革新——Continuous Batching 让 GPU 打满、PagedAttention 让显存不再碎,推理吞吐量因此跃升一个数量级。本篇从操作系统类比到工程实操全盘拆解。