15|Scaled Dot-Product:那个根号 d_k 是怎么来的 2026-04-15 | transformer | #attention #softmax #scaling #variance #transformer > 本文从零推导注意力机制点积方差的来源,解释缩放因子如何防范梯度弥散,并作为大模型 Scaling Laws 数值稳定的基石。