loss-spike 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】36|训练稳定性:损失尖峰、混合精度与梯度爆炸

大模型训练最怕的不是 loss 降得慢,而是它在看起来一切正常时突然尖峰、发散、NaN。本文把 Transformer 训练稳定性拆开讲:梯度为什么会爆炸,warmup 为什么重要,FP16/BF16 混合精度有什么数值陷阱,Pre-LN 为什么比 Post-LN 更容易训深,以及为什么稳定性是一套诊断系统,不是一个超参魔法。