sglang 标签归档

共 3 篇文章 · 返回首页

大模型基础设施工程

面向中国工程团队的大模型基础设施系列。从 GPU/CUDA/互联、训练框架与 3D 并行、vLLM/SGLang 推理引擎、量化与推测解码、RAG/Agent 到服务化、网关、可观测性与安全合规，覆盖 LLMOps 全链路。

vLLM 的两大核心革新——Continuous Batching 让 GPU 打满、PagedAttention 让显存不再碎，推理吞吐量因此跃升一个数量级。本篇从操作系统类比到工程实操全盘拆解。

主流推理引擎的架构、性能、生态深度对比，给出工程选型与落地决策依据。