batchnorm 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】25｜Layer Normalization：为什么 Transformer 用 LN，不用 BN

从公式到工程把 LayerNorm 讲清楚：它在每个 token 内部如何做归一化，为什么比 BatchNorm 更适合变长序列和自回归训练，post-LN 与 pre-LN 对梯度路径有什么影响，RMSNorm 又为什么会在现代大模型里大量替代标准 LN。