pruning 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】51|量化、蒸馏、剪枝:让大模型跑在小硬件上

大模型部署的瓶颈不只有参数量,还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么:量化降低数值精度,蒸馏把大模型行为迁移到小模型,剪枝移除不重要结构;并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。