大模型基础设施工程

2022 年底 ChatGPT 引爆后短短三年，LLM 基础设施从”单机跑一个 7B”演化为”万卡训练万亿参数、百万 QPS 推理、RAG 与 Agent 工业化”。工程师面对的是一整套新技术栈：CUDA、NCCL、FlashAttention、PagedAttention、3D 并行、vLLM、SGLang、TensorRT-LLM、PD 分离、KV cache、推测解码、MoE 路由、MCP、AI Gateway……大多数资料要么是论文切片、要么是厂商软文，缺一个工程师视角的系统化讲解。

这个系列就是要把”2022–2026 四年沉淀的大模型基础设施工程经验”讲清楚：训练、推理、RAG、Agent、观测、成本，从 GPU 底层到服务上层。既讲开源（vLLM、SGLang、Megatron、DeepSpeed、Ray、LangGraph），也讲商业（TensorRT-LLM、Triton、Bedrock、PAI、veMLP、千帆）；中国（DeepSeek、Qwen、GLM、Kimi、豆包、文心、盘古）与全球（OpenAI、Anthropic、Meta、Google、xAI、Mistral）两条主线并举。

本系列为工程参考，不构成法律、财务或合规意见。

先问 5 个问题

真正理解 LLM 基础设施的人，不会只背组件名，而能把瓶颈、资源、失效模式和业务目标串起来。阅读本系列前，可以先用下面 5 个问题校准自己的理解深度：

同一台 GPU 上，为什么 Prefill 和 Decode 不能用同一套调参逻辑？
- 回答思路：从算术强度、HBM 带宽、KV Cache、TTFT / TPOT 和请求动态到达解释两阶段差异，再说明 Continuous Batching、Chunked Prefill、PD 分离分别解决什么问题。
- 要了解的知识：Transformer 自回归生成、KV Cache、Roofline、FlashAttention / FlashDecoding、调度与尾延迟。
一个 70B 模型能装进显存，为什么仍然可能撑不起高并发长上下文？
- 回答思路：先算权重、临时 buffer、KV Cache 与 batch 的显存账，再讨论 GQA、MLA、KV 量化、PagedAttention 和并发上限之间的关系。
- 要了解的知识：MHA / GQA / MLA、显存预算、PagedAttention、上下文长度、活跃 token 与并发模型。
万卡训练里，DP、TP、PP、SP、EP、ZeRO 不是都开越多越好，应该按什么选？
- 回答思路：把模型参数、激活、优化器状态、通信量、流水 bubble 和网络拓扑放在一起算，说明不同并行策略分别是在切内存、切计算还是切通信。
- 要了解的知识：3D 并行、FSDP / ZeRO、Expert Parallel、AllReduce / AllGather / All-to-All、NVLink / InfiniBand / RoCE。
为什么一个 RAG 系统效果差，通常不能只怪大模型或 Prompt？
- 回答思路：沿离线解析、清洗、切片、Embedding、索引、混合检索、重排、上下文组装、引用和评估逐层排查，指出每一层如何影响最终答案。
- 要了解的知识：文档解析、Chunking、向量索引、BM25、Rerank、GraphRAG、RAG 评测与权限过滤。
企业里接入多个模型供应商，为什么网关、观测、成本和安全会变成基础设施问题？
- 回答思路：从多租户配额、模型路由、语义缓存、Token 计费、SLO、Prompt Injection、PII 脱敏和审计解释，说明模型调用已经是可治理的生产流量。
- 要了解的知识：LLM Gateway、OpenAI 兼容 API、Guardrails、OpenTelemetry GenAI、Langfuse / LangSmith、AI 合规与安全边界。

适合谁看

训练工程师：3D 并行、MoE、checkpoint、RLHF
推理工程师：vLLM / SGLang / TensorRT-LLM、量化、PD 分离、长上下文
RAG / Agent 工程师：向量库、GraphRAG、LangGraph、MCP、工具调用
平台 / SRE：服务化、网关、可观测、成本、合规

大模型基础设施全景：训练、推理、RAG、Agent、观测：建立硬件、系统软件、框架、应用、运营五层地图，让读者先知道每个技术点究竟解决哪一层问题。
GPU 计算入门：SM、Tensor Core、HBM、NVLink：把 SM、Warp、Tensor Core、HBM、NVLink 与 Roofline 连起来，让读者理解 GPU 性能瓶颈来自算力、带宽和并行形态的组合。
CUDA 生态：cuBLAS、cuDNN、NCCL、Triton、CUTLASS：拆解 CUDA 软件栈的分工，让读者知道上层框架的性能最终会落到 kernel、算子库和集合通信上。
互联与网络：NVLink、InfiniBand、RoCE、国产替代：解释多卡互联如何决定训练与推理的扩展上限，让读者把网络视为万卡集群里的第二计算单元。

第二部分：训练工程

训练全景：Pre-train、SFT、RLHF、DPO、蒸馏：串联现代 LLM 的训练阶段，让读者看清训练不是一次脚本运行，而是数据、目标函数、优化器、评测和发布组成的流水线。
3D 并行深度：数据 / 张量 / 流水 / 序列 / ZeRO：把 DP、TP、PP、SP、EP、ZeRO 放进内存、通信和流水 bubble 三个约束里，让读者学会按瓶颈组合并行策略。
Megatron-LM 与 DeepSpeed：开源训练框架双雄：比较主流训练框架的职责边界和工程取舍，让读者明白框架选型取决于规模、拓扑、并行策略和团队维护能力。
MoE 训练工程：GShard、Switch、Mixtral、DeepSeek：说明 MoE 如何用稀疏激活换取参数规模，让读者抓住路由均衡、Expert Parallel 与 All-to-All 才是真正工程难点。
RLHF 与对齐流水线：PPO、DPO、GRPO、Reward Model：把 SFT、奖励模型、PPO、DPO、GRPO 串成对齐流水线，让读者理解对齐是在数据、奖励、采样和训练稳定性之间做工程取舍。
Checkpoint 与故障容忍：万卡训练的分钟级恢复：把故障视为万卡训练的常态，让读者掌握 checkpoint 设计里恢复时间、存储带宽、一致性和弹性调度的平衡。

第三部分：推理工程

推理引擎基础：prefill、decode、KV cache、batching：从 Prefill、Decode、KV Cache 和 Continuous Batching 建立推理心智模型，让读者意识到推理优化首先是资源调度问题。
PagedAttention 与 Continuous Batching：vLLM 的核心革新：用操作系统式的内存与调度视角解释 vLLM 的核心设计，让读者看懂显存碎片和动态请求为什么会杀死吞吐。
vLLM / SGLang / TensorRT-LLM / TGI：主流引擎对比：对比主流推理引擎的架构、生态和部署边界，让读者学会按延迟、吞吐、功能和运维约束做选型。
量化工程：FP8、FP4、AWQ、GPTQ、KV 量化：从数据类型、PTQ / QAT、KV 量化到硬件支持讲清量化，让读者理解量化本质是在精度、指令能力和服务成本之间交易。
推测解码与 MTP：Medusa、EAGLE、Lookahead、DeepSeek MTP：解释推测解码和 MTP 如何提高 token 产出，让读者看懂加速收益受接受率、草稿模型成本和引擎实现共同制约。
长上下文工程：RoPE 扩展、YaRN、Ring Attention、MLA：把位置编码、稀疏 Attention、Ring Attention、KV 压缩和评测放在一起，让读者理解长上下文是训练、推理与评估共同参与的系统工程。

第四部分：RAG 与 Agent

RAG 工程全景：召回、重排、融合、上下文压缩：铺开从文档解析到答案评估的 RAG 流水线，让读者知道准确率更多取决于数据和检索工程，而不是只靠 Prompt。
向量库与图 RAG：Milvus、Qdrant、pgvector、GraphRAG：比较向量、倒排和图索引的工程取舍，让读者理解索引系统是在召回、延迟、内存和可解释性之间做设计。
Agent 框架工程：LangGraph、AutoGen、Coze、MCP 生态：梳理 Agent 的工作流、状态、记忆、工具和协议，让读者明白可靠 Agent 更像可观测状态机，而不是自由聊天循环。
工具调用与 MCP：JSON Schema、结构化输出、Anthropic 协议：把工具调用当成协议边界和安全边界来讲，让读者看懂 JSON Schema、结构化输出、并行调用与 MCP 的工程价值。

第五部分：服务化与运营

推理服务化：Triton、Ray Serve、KServe、PD 分离：从单机引擎走向生产级集群，让读者理解推理服务化要围绕 SLO、资源隔离、弹性伸缩和发布回滚组织系统。
大模型网关：LiteLLM、OneAPI、多云路由、成本优化：把模型调用统一成可治理入口，让读者掌握多供应商路由、配额、计费、语义缓存、Guardrails 和可观测的基础设施价值。
LLM 可观测性：Token 计费、TTFT、Langfuse、OpenLLMetry：扩展传统 Metrics、Logs、Traces 到 token、成本、幻觉和链路质量，让读者知道 LLM 系统必须同时观测性能、语义质量和账单。

第六部分：成本、安全与未来

成本、合规与安全：越狱、Prompt Injection、AI Act、TEE：把成本、合规和安全作为同一个架构问题处理，让读者理解 token 账单、卡时、电费、PII、越狱和法规都会反过来塑造系统设计。
大模型基础设施未来：世界模型、Agentic OS、专用芯片：回看四年工程拐点并展望下一轮趋势，让读者抓住模型、硬件和平台快速变化背后仍然稳定的基础设施原则。

特别篇

DeepSeek-V4 与国产芯片：从备份路线到主路径：把 DeepSeek 与国产芯片放进生态替代的工程问题里，让读者理解国产算力从备份路线走向主路径取决于模型、编译器、通信和云平台协同。
DeepSeek-V4 的极致性价比从哪来：从 MoE 激活比、混合注意力、磁盘 KV cache、专家蒸馏到 FP4 QAT，拆解 DeepSeek-V4 为什么能把 1M 长上下文与 Agent 能力做得又强又便宜。

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / ai-infra

大模型基础设施工程

文章导航

目录

先问 5 个问题

适合谁看

推荐阅读路径

目录

第一部分：硬件与底层

第二部分：训练工程

第三部分：推理工程

第四部分：RAG 与 Agent

第五部分：服务化与运营

第六部分：成本、安全与未来

特别篇

延伸阅读

同主题继续阅读

【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

【大模型基础设施工程·特别篇】DeepSeek-V4 与国产芯片：从备份路线到主路径

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏