chunked-prefill 标签归档 | 土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】12：PagedAttention 与 Continuous Batching

vLLM 的两大核心革新——Continuous Batching 让 GPU 打满、PagedAttention 让显存不再碎，推理吞吐量因此跃升一个数量级。本篇从操作系统类比到工程实操全盘拆解。