continuous-batching 标签归档 | 土法炼钢兴趣小组的算法知识备份

continuous-batching 标签归档

共 2 篇文章 · 返回首页

【大模型基础设施工程】12：PagedAttention 与 Continuous Batching

2026-04-22 | architecture · ai-infra | #llm #infra #vllm #pagedattention #continuous-batching #chunked-prefill #prefix-cache #radixattention #sglang

vLLM 的两大核心革新——Continuous Batching 让 GPU 打满、PagedAttention 让显存不再碎，推理吞吐量因此跃升一个数量级。本篇从操作系统类比到工程实操全盘拆解。

【大模型基础设施工程】11：推理引擎基础

2026-04-22 | architecture · ai-infra | #llm #infra #inference #prefill #decode #kv-cache #gqa #mla #continuous-batching #ttft #flash-decoding

从 Prefill/Decode 两阶段、KV Cache、Continuous Batching 到 PD 分离，系统讲清楚大模型推理的工程基础。