土法炼钢兴趣小组的算法知识备份

大模型基础设施工程

文章导航

分类入口
architectureai-infra
标签入口
#llm#infra#training#inference#rag#agent#vllm#sglang#deepseek#llmops

目录

2022 年底 ChatGPT 引爆后短短三年,LLM 基础设施从”单机跑一个 7B”演化为”万卡训练万亿参数、百万 QPS 推理、RAG 与 Agent 工业化”。工程师面对的是一整套新技术栈:CUDA、NCCL、FlashAttention、PagedAttention、3D 并行、vLLM、SGLang、TensorRT-LLM、PD 分离、KV cache、推测解码、MoE 路由、MCP、AI Gateway……大多数资料要么是论文切片、要么是厂商软文,缺一个工程师视角的系统化讲解。

这个系列就是要把”2022–2026 四年沉淀的大模型基础设施工程经验”讲清楚:训练、推理、RAG、Agent、观测、成本,从 GPU 底层到服务上层。既讲开源(vLLM、SGLang、Megatron、DeepSpeed、Ray、LangGraph),也讲商业(TensorRT-LLM、Triton、Bedrock、PAI、veMLP、千帆);中国(DeepSeek、Qwen、GLM、Kimi、豆包、文心、盘古)与全球(OpenAI、Anthropic、Meta、Google、xAI、Mistral)两条主线并举。

本系列为工程参考,不构成法律、财务或合规意见。

先问 5 个问题

真正理解 LLM 基础设施的人,不会只背组件名,而能把瓶颈、资源、失效模式和业务目标串起来。阅读本系列前,可以先用下面 5 个问题校准自己的理解深度:

  1. 同一台 GPU 上,为什么 Prefill 和 Decode 不能用同一套调参逻辑?
    • 回答思路:从算术强度、HBM 带宽、KV Cache、TTFT / TPOT 和请求动态到达解释两阶段差异,再说明 Continuous Batching、Chunked Prefill、PD 分离分别解决什么问题。
    • 要了解的知识:Transformer 自回归生成、KV Cache、Roofline、FlashAttention / FlashDecoding、调度与尾延迟。
  2. 一个 70B 模型能装进显存,为什么仍然可能撑不起高并发长上下文?
    • 回答思路:先算权重、临时 buffer、KV Cache 与 batch 的显存账,再讨论 GQA、MLA、KV 量化、PagedAttention 和并发上限之间的关系。
    • 要了解的知识:MHA / GQA / MLA、显存预算、PagedAttention、上下文长度、活跃 token 与并发模型。
  3. 万卡训练里,DP、TP、PP、SP、EP、ZeRO 不是都开越多越好,应该按什么选?
    • 回答思路:把模型参数、激活、优化器状态、通信量、流水 bubble 和网络拓扑放在一起算,说明不同并行策略分别是在切内存、切计算还是切通信。
    • 要了解的知识:3D 并行、FSDP / ZeRO、Expert Parallel、AllReduce / AllGather / All-to-All、NVLink / InfiniBand / RoCE。
  4. 为什么一个 RAG 系统效果差,通常不能只怪大模型或 Prompt?
    • 回答思路:沿离线解析、清洗、切片、Embedding、索引、混合检索、重排、上下文组装、引用和评估逐层排查,指出每一层如何影响最终答案。
    • 要了解的知识:文档解析、Chunking、向量索引、BM25、Rerank、GraphRAG、RAG 评测与权限过滤。
  5. 企业里接入多个模型供应商,为什么网关、观测、成本和安全会变成基础设施问题?
    • 回答思路:从多租户配额、模型路由、语义缓存、Token 计费、SLO、Prompt Injection、PII 脱敏和审计解释,说明模型调用已经是可治理的生产流量。
    • 要了解的知识:LLM Gateway、OpenAI 兼容 API、Guardrails、OpenTelemetry GenAI、Langfuse / LangSmith、AI 合规与安全边界。

适合谁看

推荐阅读路径

目录

每篇条目后的一句话,说明这篇文章真正想表达的东西,以及读者最值得带走的核心知识。

第一部分:硬件与底层

  1. 大模型基础设施全景:训练、推理、RAG、Agent、观测:建立硬件、系统软件、框架、应用、运营五层地图,让读者先知道每个技术点究竟解决哪一层问题。
  2. GPU 计算入门:SM、Tensor Core、HBM、NVLink:把 SM、Warp、Tensor Core、HBM、NVLink 与 Roofline 连起来,让读者理解 GPU 性能瓶颈来自算力、带宽和并行形态的组合。
  3. CUDA 生态:cuBLAS、cuDNN、NCCL、Triton、CUTLASS:拆解 CUDA 软件栈的分工,让读者知道上层框架的性能最终会落到 kernel、算子库和集合通信上。
  4. 互联与网络:NVLink、InfiniBand、RoCE、国产替代:解释多卡互联如何决定训练与推理的扩展上限,让读者把网络视为万卡集群里的第二计算单元。

第二部分:训练工程

  1. 训练全景:Pre-train、SFT、RLHF、DPO、蒸馏:串联现代 LLM 的训练阶段,让读者看清训练不是一次脚本运行,而是数据、目标函数、优化器、评测和发布组成的流水线。
  2. 3D 并行深度:数据 / 张量 / 流水 / 序列 / ZeRO:把 DP、TP、PP、SP、EP、ZeRO 放进内存、通信和流水 bubble 三个约束里,让读者学会按瓶颈组合并行策略。
  3. Megatron-LM 与 DeepSpeed:开源训练框架双雄:比较主流训练框架的职责边界和工程取舍,让读者明白框架选型取决于规模、拓扑、并行策略和团队维护能力。
  4. MoE 训练工程:GShard、Switch、Mixtral、DeepSeek:说明 MoE 如何用稀疏激活换取参数规模,让读者抓住路由均衡、Expert Parallel 与 All-to-All 才是真正工程难点。
  5. RLHF 与对齐流水线:PPO、DPO、GRPO、Reward Model:把 SFT、奖励模型、PPO、DPO、GRPO 串成对齐流水线,让读者理解对齐是在数据、奖励、采样和训练稳定性之间做工程取舍。
  6. Checkpoint 与故障容忍:万卡训练的分钟级恢复:把故障视为万卡训练的常态,让读者掌握 checkpoint 设计里恢复时间、存储带宽、一致性和弹性调度的平衡。

第三部分:推理工程

  1. 推理引擎基础:prefill、decode、KV cache、batching:从 Prefill、Decode、KV Cache 和 Continuous Batching 建立推理心智模型,让读者意识到推理优化首先是资源调度问题。
  2. PagedAttention 与 Continuous Batching:vLLM 的核心革新:用操作系统式的内存与调度视角解释 vLLM 的核心设计,让读者看懂显存碎片和动态请求为什么会杀死吞吐。
  3. vLLM / SGLang / TensorRT-LLM / TGI:主流引擎对比:对比主流推理引擎的架构、生态和部署边界,让读者学会按延迟、吞吐、功能和运维约束做选型。
  4. 量化工程:FP8、FP4、AWQ、GPTQ、KV 量化:从数据类型、PTQ / QAT、KV 量化到硬件支持讲清量化,让读者理解量化本质是在精度、指令能力和服务成本之间交易。
  5. 推测解码与 MTP:Medusa、EAGLE、Lookahead、DeepSeek MTP:解释推测解码和 MTP 如何提高 token 产出,让读者看懂加速收益受接受率、草稿模型成本和引擎实现共同制约。
  6. 长上下文工程:RoPE 扩展、YaRN、Ring Attention、MLA:把位置编码、稀疏 Attention、Ring Attention、KV 压缩和评测放在一起,让读者理解长上下文是训练、推理与评估共同参与的系统工程。

第四部分:RAG 与 Agent

  1. RAG 工程全景:召回、重排、融合、上下文压缩:铺开从文档解析到答案评估的 RAG 流水线,让读者知道准确率更多取决于数据和检索工程,而不是只靠 Prompt。
  2. 向量库与图 RAG:Milvus、Qdrant、pgvector、GraphRAG:比较向量、倒排和图索引的工程取舍,让读者理解索引系统是在召回、延迟、内存和可解释性之间做设计。
  3. Agent 框架工程:LangGraph、AutoGen、Coze、MCP 生态:梳理 Agent 的工作流、状态、记忆、工具和协议,让读者明白可靠 Agent 更像可观测状态机,而不是自由聊天循环。
  4. 工具调用与 MCP:JSON Schema、结构化输出、Anthropic 协议:把工具调用当成协议边界和安全边界来讲,让读者看懂 JSON Schema、结构化输出、并行调用与 MCP 的工程价值。

第五部分:服务化与运营

  1. 推理服务化:Triton、Ray Serve、KServe、PD 分离:从单机引擎走向生产级集群,让读者理解推理服务化要围绕 SLO、资源隔离、弹性伸缩和发布回滚组织系统。
  2. 大模型网关:LiteLLM、OneAPI、多云路由、成本优化:把模型调用统一成可治理入口,让读者掌握多供应商路由、配额、计费、语义缓存、Guardrails 和可观测的基础设施价值。
  3. LLM 可观测性:Token 计费、TTFT、Langfuse、OpenLLMetry:扩展传统 Metrics、Logs、Traces 到 token、成本、幻觉和链路质量,让读者知道 LLM 系统必须同时观测性能、语义质量和账单。

第六部分:成本、安全与未来

  1. 成本、合规与安全:越狱、Prompt Injection、AI Act、TEE:把成本、合规和安全作为同一个架构问题处理,让读者理解 token 账单、卡时、电费、PII、越狱和法规都会反过来塑造系统设计。
  2. 大模型基础设施未来:世界模型、Agentic OS、专用芯片:回看四年工程拐点并展望下一轮趋势,让读者抓住模型、硬件和平台快速变化背后仍然稳定的基础设施原则。

特别篇

  1. DeepSeek-V4 与国产芯片:从备份路线到主路径:把 DeepSeek 与国产芯片放进生态替代的工程问题里,让读者理解国产算力从备份路线走向主路径取决于模型、编译器、通信和云平台协同。

延伸阅读

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。


By .