【Transformer 与注意力机制】25|Layer Normalization:为什么 Transformer 用 LN,不用 BN
从公式到工程把 LayerNorm 讲清楚:它在每个 token 内部如何做归一化,为什么比 BatchNorm 更适合变长序列和自回归训练,post-LN 与 pre-LN 对梯度路径有什么影响,RMSNorm 又为什么会在现代大模型里大量替代标准 LN。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
从公式到工程把 LayerNorm 讲清楚:它在每个 token 内部如何做归一化,为什么比 BatchNorm 更适合变长序列和自回归训练,post-LN 与 pre-LN 对梯度路径有什么影响,RMSNorm 又为什么会在现代大模型里大量替代标准 LN。