【Transformer 与注意力机制】36|训练稳定性:损失尖峰、混合精度与梯度爆炸
大模型训练最怕的不是 loss 降得慢,而是它在看起来一切正常时突然尖峰、发散、NaN。本文把 Transformer 训练稳定性拆开讲:梯度为什么会爆炸,warmup 为什么重要,FP16/BF16 混合精度有什么数值陷阱,Pre-LN 为什么比 Post-LN 更容易训深,以及为什么稳定性是一套诊断系统,不是一个超参魔法。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
大模型训练最怕的不是 loss 降得慢,而是它在看起来一切正常时突然尖峰、发散、NaN。本文把 Transformer 训练稳定性拆开讲:梯度为什么会爆炸,warmup 为什么重要,FP16/BF16 混合精度有什么数值陷阱,Pre-LN 为什么比 Post-LN 更容易训深,以及为什么稳定性是一套诊断系统,不是一个超参魔法。