2022 年底 ChatGPT 引爆后短短三年,LLM 基础设施从”单机跑一个 7B”演化为”万卡训练万亿参数、百万 QPS 推理、RAG 与 Agent 工业化”。工程师面对的是一整套新技术栈:CUDA、NCCL、FlashAttention、PagedAttention、3D 并行、vLLM、SGLang、TensorRT-LLM、PD 分离、KV cache、推测解码、MoE 路由、MCP、AI Gateway……大多数资料要么是论文切片、要么是厂商软文,缺一个工程师视角的系统化讲解。
这个系列就是要把”2022–2026 四年沉淀的大模型基础设施工程经验”讲清楚:训练、推理、RAG、Agent、观测、成本,从 GPU 底层到服务上层。既讲开源(vLLM、SGLang、Megatron、DeepSpeed、Ray、LangGraph),也讲商业(TensorRT-LLM、Triton、Bedrock、PAI、veMLP、千帆);中国(DeepSeek、Qwen、GLM、Kimi、豆包、文心、盘古)与全球(OpenAI、Anthropic、Meta、Google、xAI、Mistral)两条主线并举。
本系列为工程参考,不构成法律、财务或合规意见。
适合谁看
- 训练工程师:3D 并行、MoE、checkpoint、RLHF
- 推理工程师:vLLM / SGLang / TensorRT-LLM、量化、PD 分离、长上下文
- RAG / Agent 工程师:向量库、GraphRAG、LangGraph、MCP、工具调用
- 平台 / SRE:服务化、网关、可观测、成本、合规
推荐阅读路径
- 硬件与系统基础 → 02 → 03 → 04
- 训练路线 → 05 → 06 → 07 → 08 → 09 → 10
- 推理路线 → 11 → 12 → 13 → 14 → 15 → 16
- RAG / Agent 路线 → 17 → 18 → 19 → 20
- 平台与运营 → 21 → 22 → 23 → 24 → 25
目录
第一部分:硬件与底层
- 大模型基础设施全景:训练、推理、RAG、Agent、观测
- GPU 计算入门:SM、Tensor Core、HBM、NVLink
- CUDA 生态:cuBLAS、cuDNN、NCCL、Triton、CUTLASS
- 互联与网络:NVLink、InfiniBand、RoCE、国产替代
第二部分:训练工程
- 训练全景:Pre-train、SFT、RLHF、DPO、蒸馏
- 3D 并行深度:数据 / 张量 / 流水 / 序列 / ZeRO
- Megatron-LM 与 DeepSpeed:开源训练框架双雄
- MoE 训练工程:GShard、Switch、Mixtral、DeepSeek
- RLHF 与对齐流水线:PPO、DPO、GRPO、Reward Model
- Checkpoint 与故障容忍:万卡训练的分钟级恢复
第三部分:推理工程
- 推理引擎基础:prefill、decode、KV cache、batching
- PagedAttention 与 Continuous Batching:vLLM 的核心革新
- vLLM / SGLang / TensorRT-LLM / TGI:主流引擎对比
- 量化工程:FP8、FP4、AWQ、GPTQ、KV 量化
- 推测解码与 MTP:Medusa、EAGLE、Lookahead、DeepSeek MTP
- 长上下文工程:RoPE 扩展、YaRN、Ring Attention、MLA
第四部分:RAG 与 Agent
- RAG 工程全景:召回、重排、融合、上下文压缩
- 向量库与图 RAG:Milvus、Qdrant、pgvector、GraphRAG
- Agent 框架工程:LangGraph、AutoGen、Coze、MCP 生态
- 工具调用与 MCP:JSON Schema、结构化输出、Anthropic 协议
第五部分:服务化与运营
- 推理服务化:Triton、Ray Serve、KServe、PD 分离
- 大模型网关:LiteLLM、OneAPI、多云路由、成本优化
- LLM 可观测性:Token 计费、TTFT、Langfuse、OpenLLMetry
第六部分:成本、安全与未来
延伸阅读
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测
面向工程师的大模型基础设施开篇地图,覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。
【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏
以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。
【大模型基础设施工程】12:PagedAttention 与 Continuous Batching
vLLM 的两大核心革新——Continuous Batching 让 GPU 打满、PagedAttention 让显存不再碎,推理吞吐量因此跃升一个数量级。本篇从操作系统类比到工程实操全盘拆解。
【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比
主流推理引擎的架构、性能、生态深度对比,给出工程选型与落地决策依据。