土法炼钢兴趣小组的算法知识备份

大模型基础设施工程

文章导航

分类入口
architectureai-infra
标签入口
#llm#infra#training#inference#rag#agent#vllm#sglang#deepseek#llmops

目录

2022 年底 ChatGPT 引爆后短短三年,LLM 基础设施从”单机跑一个 7B”演化为”万卡训练万亿参数、百万 QPS 推理、RAG 与 Agent 工业化”。工程师面对的是一整套新技术栈:CUDA、NCCL、FlashAttention、PagedAttention、3D 并行、vLLM、SGLang、TensorRT-LLM、PD 分离、KV cache、推测解码、MoE 路由、MCP、AI Gateway……大多数资料要么是论文切片、要么是厂商软文,缺一个工程师视角的系统化讲解。

这个系列就是要把”2022–2026 四年沉淀的大模型基础设施工程经验”讲清楚:训练、推理、RAG、Agent、观测、成本,从 GPU 底层到服务上层。既讲开源(vLLM、SGLang、Megatron、DeepSpeed、Ray、LangGraph),也讲商业(TensorRT-LLM、Triton、Bedrock、PAI、veMLP、千帆);中国(DeepSeek、Qwen、GLM、Kimi、豆包、文心、盘古)与全球(OpenAI、Anthropic、Meta、Google、xAI、Mistral)两条主线并举。

本系列为工程参考,不构成法律、财务或合规意见。

适合谁看

推荐阅读路径

目录

第一部分:硬件与底层

  1. 大模型基础设施全景:训练、推理、RAG、Agent、观测
  2. GPU 计算入门:SM、Tensor Core、HBM、NVLink
  3. CUDA 生态:cuBLAS、cuDNN、NCCL、Triton、CUTLASS
  4. 互联与网络:NVLink、InfiniBand、RoCE、国产替代

第二部分:训练工程

  1. 训练全景:Pre-train、SFT、RLHF、DPO、蒸馏
  2. 3D 并行深度:数据 / 张量 / 流水 / 序列 / ZeRO
  3. Megatron-LM 与 DeepSpeed:开源训练框架双雄
  4. MoE 训练工程:GShard、Switch、Mixtral、DeepSeek
  5. RLHF 与对齐流水线:PPO、DPO、GRPO、Reward Model
  6. Checkpoint 与故障容忍:万卡训练的分钟级恢复

第三部分:推理工程

  1. 推理引擎基础:prefill、decode、KV cache、batching
  2. PagedAttention 与 Continuous Batching:vLLM 的核心革新
  3. vLLM / SGLang / TensorRT-LLM / TGI:主流引擎对比
  4. 量化工程:FP8、FP4、AWQ、GPTQ、KV 量化
  5. 推测解码与 MTP:Medusa、EAGLE、Lookahead、DeepSeek MTP
  6. 长上下文工程:RoPE 扩展、YaRN、Ring Attention、MLA

第四部分:RAG 与 Agent

  1. RAG 工程全景:召回、重排、融合、上下文压缩
  2. 向量库与图 RAG:Milvus、Qdrant、pgvector、GraphRAG
  3. Agent 框架工程:LangGraph、AutoGen、Coze、MCP 生态
  4. 工具调用与 MCP:JSON Schema、结构化输出、Anthropic 协议

第五部分:服务化与运营

  1. 推理服务化:Triton、Ray Serve、KServe、PD 分离
  2. 大模型网关:LiteLLM、OneAPI、多云路由、成本优化
  3. LLM 可观测性:Token 计费、TTFT、Langfuse、OpenLLMetry

第六部分:成本、安全与未来

  1. 成本、合规与安全:越狱、Prompt Injection、AI Act、TEE
  2. 大模型基础设施未来:世界模型、Agentic OS、专用芯片

延伸阅读

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。


By .