llm-serving 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】50｜Speculative Decoding：用小模型加速大模型

2026-04-15 | transformer | #transformer #speculative-decoding #inference #draft-model #llm-serving

KV Cache 避免了重复计算历史前缀，但自回归生成仍然一个 token 接一个 token。Speculative Decoding 的思路是让小 draft model 先草拟多个 token，再由大 target model 批量验证，在保持目标模型分布正确的前提下降低延迟。本文解释它的算法直觉、接受率瓶颈和适用边界。