pruning 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】51｜量化、蒸馏、剪枝：让大模型跑在小硬件上

大模型部署的瓶颈不只有参数量，还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么：量化降低数值精度，蒸馏把大模型行为迁移到小模型，剪枝移除不重要结构；并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。