speculative-decoding 标签归档 | 土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】15：推测解码与 MTP

2026-04-22 | architecture · ai-infra | #llm #infra #speculative-decoding #medusa #eagle #mtp #lookahead #jacobi #deepseek-v3 #self-speculative

从经典 Speculative Decoding 到 Medusa、EAGLE、Lookahead、MTP 与自推测——系统梳理让大模型"一次多吐几 token"的工程方法与引擎支持

【Transformer 与注意力机制】50｜Speculative Decoding：用小模型加速大模型

2026-04-15 | transformer | #transformer #speculative-decoding #inference #draft-model #llm-serving

KV Cache 避免了重复计算历史前缀，但自回归生成仍然一个 token 接一个 token。Speculative Decoding 的思路是让小 draft model 先草拟多个 token，再由大 target model 批量验证，在保持目标模型分布正确的前提下降低延迟。本文解释它的算法直觉、接受率瓶颈和适用边界。