distillation 标签归档

推理模型通过强化学习训练长思维链（long CoT），在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。

【Transformer 与注意力机制】51｜量化、蒸馏、剪枝：让大模型跑在小硬件上

大模型部署的瓶颈不只有参数量，还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么：量化降低数值精度，蒸馏把大模型行为迁移到小模型，剪枝移除不重要结构；并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。