layernorm 标签归档 | 土法炼钢兴趣小组的算法知识备份

layernorm 标签归档

共 2 篇文章 · 返回首页

【GPU 算子工程】Softmax、LayerNorm 与逐元素融合

2026-06-28 | gpu · architecture | #cuda #softmax #layernorm #online-softmax #welford #fusion #elementwise

归约类算子是 memory-bound 的典型。讲 softmax 的数值稳定写法（减最大值、在线 softmax）、LayerNorm 的 Welford 单遍方差，以及逐元素融合：实测把 scale+bias+GELU 三个 kernel 融成一个，提速 2.94 倍。

【Transformer 与注意力机制】25｜Layer Normalization：为什么 Transformer 用 LN，不用 BN

2026-04-15 | transformer | #transformer #layernorm #batchnorm #rmsnorm #optimization

从公式到工程把 LayerNorm 讲清楚：它在每个 token 内部如何做归一化，为什么比 BatchNorm 更适合变长序列和自回归训练，post-LN 与 pre-LN 对梯度路径有什么影响，RMSNorm 又为什么会在现代大模型里大量替代标准 LN。