【GPU 算子工程】Softmax、LayerNorm 与逐元素融合
归约类算子是 memory-bound 的典型。讲 softmax 的数值稳定写法(减最大值、在线 softmax)、LayerNorm 的 Welford 单遍方差,以及逐元素融合:实测把 scale+bias+GELU 三个 kernel 融成一个,提速 2.94 倍。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
归约类算子是 memory-bound 的典型。讲 softmax 的数值稳定写法(减最大值、在线 softmax)、LayerNorm 的 Welford 单遍方差,以及逐元素融合:实测把 scale+bias+GELU 三个 kernel 融成一个,提速 2.94 倍。
从公式到工程把 LayerNorm 讲清楚:它在每个 token 内部如何做归一化,为什么比 BatchNorm 更适合变长序列和自回归训练,post-LN 与 pre-LN 对梯度路径有什么影响,RMSNorm 又为什么会在现代大模型里大量替代标准 LN。