llm-serving 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】50|Speculative Decoding:用小模型加速大模型

KV Cache 避免了重复计算历史前缀,但自回归生成仍然一个 token 接一个 token。Speculative Decoding 的思路是让小 draft model 先草拟多个 token,再由大 target model 批量验证,在保持目标模型分布正确的前提下降低延迟。本文解释它的算法直觉、接受率瓶颈和适用边界。