loss-spike 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】36｜训练稳定性：损失尖峰、混合精度与梯度爆炸

2026-04-15 | transformer | #transformer #training-stability #loss-spike #mixed-precision #gradient-clipping

大模型训练最怕的不是 loss 降得慢，而是它在看起来一切正常时突然尖峰、发散、NaN。本文把 Transformer 训练稳定性拆开讲：梯度为什么会爆炸，warmup 为什么重要，FP16/BF16 混合精度有什么数值陷阱，Pre-LN 为什么比 Post-LN 更容易训深，以及为什么稳定性是一套诊断系统，不是一个超参魔法。