softmax 标签归档

共 5 篇文章 · 返回首页

【GPU 算子工程】Softmax、LayerNorm 与逐元素融合

归约类算子是 memory-bound 的典型。讲 softmax 的数值稳定写法（减最大值、在线 softmax）、LayerNorm 的 Welford 单遍方差，以及逐元素融合：实测把 scale+bias+GELU 三个 kernel 融成一个，提速 2.94 倍。

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

> 本文从零推导注意力机制点积方差的来源，解释缩放因子如何防范梯度弥散，并作为大模型 Scaling Laws 数值稳定的基石。

从人类阅读时的眼动出发，把「注意力」拆成视觉生理、翻译对齐、加权平均三件事。讲清楚为什么权重必须满足非负与和为一、为什么 softmax 不是审美选择而是可微优先的工程结果，以及为什么我们要选连续概率选择而不是 argmax。

Softmax 不是一个孤立的归一化函数，而是把任意实数分数变成概率分布的一座桥。本文从'为什么需要它'出发，讲清楚公式、几何、温度、稳定性、与交叉熵的配合，以及它在 Transformer 注意力里扮演的关键角色。