autoregressive-decoding 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】49｜KV Cache：推理为什么是 O(n) 不是 O(n²)

2026-04-15 | transformer | #transformer #kv-cache #inference #autoregressive-decoding #attention

自回归推理和训练不是同一种程序。本文解释 KV Cache 为什么成立：历史 token 的 Key/Value 一旦算出，在后续 decode 中不会改变；缓存它们可以避免反复重算前缀。文章同时讲清 prefill 与 decode 的差异、cache 显存公式、长上下文为什么受限，以及 PagedAttention、MQA/GQA、cache 量化等方向各自在解决什么。