【Transformer 与注意力机制】21｜位置编码：为什么需要它，为什么用正弦

读到《Attention Is All You Need》第 3.5 节「Positional Encoding」时，几乎每个第一次读论文的人都会愣一下。前面把整个架构推得那么顺：multi-head、scaled dot-product、encoder-decoder、residual——一切都自洽。然后突然来了一句话：「Since our model contains no recurrence and no convolution, in order for the model to make use of the order of the sequence, we must inject some information about the relative or absolute position of the tokens in the sequence.」紧接着就是那个看起来像从天上掉下来的公式：

\[ \begin{aligned} \operatorname{PE}(pos, 2i) &= \sin\left(\frac{pos}{10000^{2i / d_{\mathrm{model}}}}\right) \\ \operatorname{PE}(pos, 2i + 1) &= \cos\left(\frac{pos}{10000^{2i / d_{\mathrm{model}}}}\right) \end{aligned} \]

为什么是 sin/cos？为什么是 10000？为什么把它和 word embedding 直接相加？为什么训出来还能用——不是应该把语义信息搅乱吗？

这一篇就是为这一连串「为什么」准备的。读完之后你应该能做到：在白板上画出 self-attention 的排列等变性证明；把 sinusoidal 的「相对位置可线性表达」性质用三角恒等式推一遍；说清楚「相加」相比「拼接」在参数和子空间利用率上的差别；给一个工程师讲明白「为什么训练 512、推理 2048 会让一个用可学习位置的模型很难直接外推」。

更重要的是：理解了这一篇，你才能真正读懂第 41 篇里 RoPE 和 ALiBi 解决的不是「让 sin/cos 跑得更快一点」，而是从问题定义上把位置编码挪到了完全不同的层面——不再是「加在输入上的一个向量」，而是「注入在 attention 打分公式里的一个相对位置先验」。

一、self-attention 是排列等变的：被忽视的硬事实

1.0 从一个常被忽略的提问开始

如果你已经完整读过第 14 篇 self-attention，会觉得 attention 是一个非常对称、非常优雅的运算：每对 token 之间通过 Q·Kᵀ 算相似度，然后用 softmax 归一化、加权求和 V。所有位置之间地位平等。但请你停下来认真问一句：「当我说『所有位置之间地位平等』时，我有没有意识到这件事在结构上意味着什么？」

意味着：模型分不清序列的顺序。一个本来在第 0 位的 token 和它本来在第 17 位的副本，在 attention 看来是完全等同的。如果你接受这个事实，那么「Transformer 怎么处理语序」这个问题，不再是一个「实现细节」，而是一个真正需要被解决的结构性挑战。

这一节就是从这条结构性挑战出发，一步步把整篇内容铺开。

1.1 一个让人发懵的小实验

回想第 14 篇里我们写过的最朴素的 self-attention：把一个 (N, d) 的输入 X 投影成 Q、K、V，然后算 \(\text{softmax}(QK^T/\sqrt{d_k})V\)。再回想第 13 篇手算的那个三 token 玩具例子。

现在试一个非常简单的实验：把这三个 token 的顺序倒过来，再喂进同一个 self-attention 模块，看看输出会变成什么。

我没有用任何代码，只用纸笔就能写下结论：输出向量也跟着倒过来，但每个位置的内容和原来完全一样。换句话说，把输入序列从 \([x_1, x_2, x_3]\) 变成 \([x_3, x_2, x_1]\)，输出从 \([y_1, y_2, y_3]\) 变成 \([y_3, y_2, y_1]\)。新输出里的 \(y_1\) 和原输出里的 \(y_1\)，每一位都对得上，连小数点后第七位都不差。

这不是巧合，是 self-attention 的内禀对称性。我们一会儿会用一行公式把它写死。

但先让这件事在直觉层面停留一秒，因为它的工程后果非常严重：这意味着，在一个没有任何位置信息的 self-attention 上，「猫吃鱼」和「鱼吃猫」是不可分的。模型不是「学不会」这两个句子的差别，是它从根本上接收不到这两个句子有差别这条信息。

图里左右两侧用的是同一个 self-attention 模块，同一组 W_Q / W_K / W_V。左边输入「猫吃鱼」，右边输入「鱼吃猫」。因为 attention 对所有位置一视同仁，谁站在第几位，模块根本看不出来。每个 token 唯一的身份证只有它自己的 embedding 向量，而 embedding 向量只承载语义，不承载位置。

1.2 用一行公式把它写死

把上面那件事用数学形式写下来。设 \(P\) 是任意 \(N \times N\) 的置换矩阵（每一行每一列恰好有一个 1，其它都是 0），\(X\) 是输入矩阵 \((N, d)\)，那么 \(PX\) 表示「按 \(P\) 把 \(X\) 的行重排」。一次 self-attention 写成 \(f(X)\)，我们要证明的事情是：

\[ f(PX) = P f(X) \]

这就是「排列等变」（permutation-equivariant）的精确形式：把输入按 P 排，输出也按同一个 P 排，且仅此而已。

证明并不复杂。第一步：投影是逐行做的，所以 PX 投出来的 Q’、K’、V’ 满足 \(Q' = (PX)W_Q = P(XW_Q) = PQ\)，\(K' = PK\)，\(V' = PV\)。第二步：算分数矩阵 \(S' = Q'K'^T = PQ(PK)^T = PQK^TP^T = P S P^T\)。第三步：softmax 是逐行作用的，\(\operatorname{softmax}(P S P^T) = P \, \operatorname{softmax}(S) \, P^T\)。第四步：再乘 \(V'\)：

\[ \begin{aligned} f(PX) &= \operatorname{softmax}\left(\frac{P S P^\top}{\sqrt{d_k}}\right) P V \\ &= P \, \operatorname{softmax}\left(\frac{S}{\sqrt{d_k}}\right) P^\top P V \\ &= P \, \operatorname{softmax}\left(\frac{S}{\sqrt{d_k}}\right) V \\ &= P f(X) \end{aligned} \]

最后一步用了 \(P^\top P = I\)，因为置换矩阵正交。

这条证明短到一张草稿纸都用不完，但它的结论被整个领域用来做了无数件事：从 Set Transformer、Deep Sets，到图神经网络上的 attention 池化，再到回到我们要讲的位置编码——它是一个否定命题，告诉你「单凭 self-attention 是不够的」。

1.3 RNN 和 CNN 自带位置感

为什么 RNN 不需要专门的位置编码？因为它的循环结构里，第 t 步的隐藏状态 hₜ 是 hₜ₋₁ 和 xₜ 的函数；第 t 步永远只能在第 t-1 步之后被算出来。位置信息隐含在「计算的顺序」里，不需要再注入。

CNN 同样不需要。一维卷积核滑过序列时，相邻 token 落在同一个感受野，远端 token 落在不同的感受野，位置差异就编码在「哪些 token 和哪些 token 一起做了卷积」这件事里。

self-attention 的问题恰恰在于它放弃了这两种结构性偏置。它把每对 token 都视为「等距」——任意两个位置之间都是一跳，所以它在长程依赖上有巨大优势，但代价是位置信息的归零。第 18 篇讲过这是 attention 复杂度问题的源头，这里我们看到的是同一件事在另一个面上的投影：当所有 token 在 attention 看来都「平等可达」时，它们在「在第几位」这件事上也变得平等不可分。

更精准地说，CNN 和 RNN 的位置感是「派生」的，不是「显式」的。RNN 通过隐藏状态在时间维度上的递推携带位置；CNN 通过感受野的局部性区分相邻和远端。它们都没有一组显式的「位置向量」。Transformer 没有递推、没有滑窗、只有全局 attention，这意味着位置感完全消失了——除非你显式地把它写回来。

这条对比也解释了为什么有些工作（Gulati 等人的 Conformer、Gehring 的 ConvSeq2Seq）把卷积和 attention 混合：卷积提供「天然的局部位置感」，attention 处理「全局关系」，两者互补。当卷积参与时，位置编码的负担会减轻；当 attention 是唯一交互机制时，位置编码就成了不可省的核心模块。

1.4 为什么这件事在原论文里只用一段话带过

读论文的人常常觉得 Vaswani 等人把位置编码这一节写得太轻描淡写——一节，半页，结束。但这其实反映了 2017 年作者团队对这个问题的态度：位置编码是补丁，不是架构核心。架构核心是 attention 本身和它的并行性，位置编码只是「让 attention 能用在序列上」的最小修复。

后来的几年证明这个判断既对也不对。对的部分是：注入位置信息确实有很多种方式都能 work，sin/cos 不是唯一选项。不对的部分是：位置编码远不是补丁。它直接决定了模型的长度泛化能力、对相对距离的敏感性、长上下文场景下的稳定性。RoPE 不是把 sin/cos 换了个写法，它从根上重新定义了「位置如何参与 attention」，并因此打开了 100k tokens 上下文的工程空间。

这条线索我们留到下文，先沿着原论文的思路把 sinusoidal 讲透。

1.5 把这件事在工程上彻底说清楚

我们在这里再多花几行，把「self-attention 排列等变」与日常工程现象做一次连接。如果你训练过任何一个 Transformer 或者它的简化版本，你或许见过这样几个现象：

第一个现象：删掉位置编码之后，loss 在前几百个 step 几乎不下降。我自己在写教学代码时复现过：把 sinusoidal_pe 改成 torch.zeros_like，loss 在第 200 个 step 仍然稳稳停在初始值附近。这不是 bug——是模型对所有可能的输出都「均等无知」，因为它无法区分输入序列里 token 的顺序。

第二个现象：在 BERT 的某些预训练阶段，工程师会观察到 sequence position 较远的 token 之间 attention weight 异常稀疏。这通常被解释成「远端依赖学不动」，但更准确的诊断是：可学习位置编码在远端位置上训过的样本数太少，PE 还很噪。把模型训得更久之后，这种稀疏会显著缓解。

第三个现象：用 LLaMA 推理 16k token 上下文时，如果 RoPE base 没有调对，前面的 token 仍然能被正确利用，但 token 8000 之后会出现明显的「指代漂移」——模型会突然把后半段的 it 解析到一个从未出现的 entity 上。这就是位置编码外推失败在生产场景的样子，也是为什么 RoPE base scaling、NTK-aware interpolation、YaRN 这一类技术在 2023 年井喷的原因。

把这三件事串起来你会发现：位置编码不是「数学家的玩物」，而是天天在生产环境影响困惑度、影响 latency、影响用户体验的关键模块。这一篇花的所有篇幅都不算多。

二、注入位置信息的三类方案

在跳进具体方案之前，先为后文铺一条整体地图：所有位置编码方案，本质上是在回答同一个问题——「位置信息从哪里进入 attention 的计算」。三类答案分别对应三个不同的入口。

把可能的方案做一次分类，思考会清晰很多。粗略地说，业界至今出现过三类位置编码方案，每一类的设计哲学都很不一样。

2.1 第一类：绝对位置编码

绝对位置编码的思路朴素到近乎天真：序列里第 0 位就配一个固定的向量 PE(0)，第 1 位配 PE(1)，依此类推。这个向量直接加到（或者拼接到）token embedding 上，让网络从一开始就「带着位置一起出发」。

这一类的两个代表是：

正弦位置编码（sinusoidal）：PE 是 sin/cos 计算出来的固定函数，没有可学习参数。原论文用的就是这种。
可学习位置编码（learned）：PE 是一张 (max_len, d_model) 的查表，每一行随机初始化、随训练更新。BERT、GPT-2、原版 ViT 都用这种。

绝对位置编码的优点是简单、结构清晰、训练稳定。缺点是：模型「直接知道我在第几位」，但不直接知道「我离另一个 token 几位」。前者是绝对，后者是相对。语言中很多结构（比如「形容词修饰它前一个名词」）本质上是相对距离的事，绝对位置只是个间接代理。

2.2 第二类：相对位置编码

相对位置编码不告诉模型「你是第几位」，只告诉它「你和我差几位」。它的注入方式不是改输入，而是改 attention 打分公式：在 Q·Kᵀ 那一项里，加入一个关于相对偏移 (i - j) 的 bias 或者投影。

这一类的代表是 Shaw 2018、T5 的 relative position bias、ALiBi、RoPE。它们各自的实现差别很大，但共享同一个直觉：自然语言里「相邻」「相隔三个」「相隔很远」是结构性事实，而「我是第 17 位」并不是。

2.3 第三类：旋转位置编码 / 衰减偏置

这一类是相对位置编码的现代演进，但因为思路特殊，单列一类比较清晰：

RoPE（Rotary Position Embedding）：把每一对维度看作复平面上的一个旋转，pos 决定旋转角度。一个 token 在 attention 打分时，自然就以「角度差」的形式让相对位置进入 score。
ALiBi（Attention with Linear Biases）：在 attention score 上直接减去 \(m \cdot (i - j)\)，让远端 attention 自然衰减。无可学习参数，长度外推能力出奇地好。

这两个方案是当前主流大模型（LLaMA、Mistral、Qwen 系列）的位置编码主力。我们在第 41 篇会专门展开它们。

2.3.5 哪一类是「正确答案」

读到这里读者可能想问：那哪一类才是「正确答案」？

答案是：没有「正确」，只有「在你的约束下最合适」。如果你只在固定长度上训练和推理（比如某个产品级 NER 模型、某个分类任务），可学习位置完全够用；如果你在做翻译这种需要相对距离敏感的任务，sinusoidal 或 T5 relative bias 都不错；如果你在做长上下文的对话或文档理解，RoPE/ALiBi 是默认。

这里的「合适」是一个工程判断，不是一个数学定理。位置编码这一块的演化告诉我们：在深度学习里，「最优解」往往是一组随时间和需求漂移的临时共识，不是一个静态结论。这条心态在阅读后续位置编码相关研究时尤其重要——你会看到大量「在 X 任务上 A 比 B 好、在 Y 任务上 B 比 A 好」的论文，理解它们的关键不是记住胜负，而是记住每篇论文背后的约束。

2.4 一张选型对照表

下面这张表把三类方案的关键差别压在一起，留作参考：

维度	正弦绝对位置	可学习绝对位置	相对位置 / RoPE / ALiBi
形式	固定 sin/cos 函数	(max_len, d_model) 查表	直接修改 attention score
参数量	0	max_len × d_model	0 或极少
训练	直接相加，无学习	随训练更新	通过修改 attention 自然学到
训练长度	无硬上限	训练时 max_len 写死	无硬上限
外推能力	中等	几乎为零	强（尤其 ALiBi）
表达力	中	高（数据足够时）	高
代表模型	原版 Transformer	BERT、GPT-2、ViT	LLaMA、Mistral、Qwen

排序的标准不是「哪个更好」，而是「在工程上各占什么生态位」。BERT 用可学习位置，是因为它的 max_len = 512 在 2018 年的下游任务里完全够用，没人在意外推；LLaMA 用 RoPE，是因为它从 2k 训练扩展到 32k 推理已经成了标配。

三、原论文的 sinusoidal 公式：直观理解

3.1 公式再写一遍

把开头的公式重新摆出来：

这里 pos 是 token 在序列中的位置（0, 1, 2, …），i 是维度索引的一半（0, 1, …, d_model/2 - 1），d_model 是 Transformer 的隐藏维度（原论文 base 模型是 512）。

输出 PE 是一个长度为 \(d_{\mathrm{model}}\) 的向量。每一对维度 \((2i, 2i + 1)\) 共用一个频率 \(\omega_i = 10000^{-2i / d_{\mathrm{model}}}\)，\(\sin\) 占偶数维、\(\cos\) 占奇数维。

3.2 把它读成「一组不同频率的波」

把 \(d_{\mathrm{model}} = 512\) 的 PE 摊开，你会得到 256 对 \((\sin, \cos)\) 通道。它们的频率从最高（\(i = 0\) 时 \(\omega = 1\)）一直平滑下降到最低（\(i = 255\) 时 \(\omega = 1 / 10000\)）。

最高频通道是 \(\sin(\text{pos})\)，每隔 \(2\pi\) 个位置（约 6.28）一个完整周期；这相当于把「相邻几个位置」的差异放进了这一对通道。最低频通道是 \(\sin(\text{pos} / 10000)\)，要经过 \(2\pi \times 10000 \approx 62832\) 个位置才完成一个周期；它编码的不是「相邻」的差异，而是「这个 token 在整个序列的哪个大段落里」。

中间的频率覆盖中间的尺度。这种设计就像傅里叶级数：把一个位置坐标 pos 同时投影到许多不同尺度的正弦波上，每个尺度上的取值组合起来，让 PE(pos) 成为唯一可识别的指纹。

图里从上到下展示了几个不同维度上 PE(pos) 随 pos 变化的曲线。最高频维度震荡得很快，最低频维度在 0 到 512 范围内只走了不到一个周期。读者可以脑补一下：把 256 条这样的曲线在每个 pos 处取值拼成一个长度为 512 的向量，就是 PE(pos)。两个 pos 越接近，它们的 PE 向量在所有维度上就越接近；两个 pos 越远，它们的 PE 在高频维度上完全错开，在低频维度上仍然记录着「在哪个段落」。

3.3 那个 10000 是怎么来的

10000 这个数字常常让人疑惑：为什么不是 1000，不是 100000？

答案有两层。

第一层是数学上的：10000^(2i/d_model) 这条几何级数的最大值是 10000（当 2i = d_model 时），所以最低频的周期约是 2π × 10000 ≈ 62832。这意味着 sinusoidal 编码能区分大约六万个位置，而不会让 PE 在序列两端「绕回来」相撞。原论文训练时序列长度不超过几千，6 万的额定区分能力是非常宽裕的。

第二层是工程上的：作者团队在论文 §3.5 末尾写了一句话——他们也试过可学习位置编码，结果几乎一样；选 sinusoidal 是因为它「可能让模型对训练时未见过的更长序列有外推能力」（原文：we hypothesized it would allow the model to extrapolate to sequence lengths longer than the ones encountered during training）。

10000 这个具体数值，没有特别神奇的理论依据，是一个「足够大、覆盖足够长尺度、不需要 tune」的经验选择。后面的研究有人尝试把它换成别的（如 RoPE 的常用值 10000，但有些任务用 1000000），但那是后话。

3.4 一个 \(d_{\mathrm{model}} = 4\) 的最小例子

抽象的话讲多了不如算一遍。设 \(d_{\mathrm{model}} = 4\)，看 \(pos = 0, 1, 2, 3\) 这四个位置的 PE。

频率有两个：\(i = 0\) 对应 \(\omega_0 = 10000^0 = 1\)，\(i = 1\) 对应 \(\omega_1 = 10000^{-2/4} = 0.01\)。

\[ \begin{aligned} \operatorname{PE}(0) &= [\sin(0), \cos(0), \sin(0), \cos(0)] = [0, 1, 0, 1] \\ \operatorname{PE}(1) &= [\sin(1), \cos(1), \sin(0.01), \cos(0.01)] \approx [0.841, 0.540, 0.010, 1.000] \\ \operatorname{PE}(2) &= [\sin(2), \cos(2), \sin(0.02), \cos(0.02)] \approx [0.909, -0.416, 0.020, 1.000] \\ \operatorname{PE}(3) &= [\sin(3), \cos(3), \sin(0.03), \cos(0.03)] \approx [0.141, -0.990, 0.030, 1.000] \end{aligned} \]

看几件事。第一，\(pos = 0\) 的 PE 是 \([0, 1, 0, 1]\)，所有 \(\sin\) 都是 0，所有 \(\cos\) 都是 1。这不是 bug，是 \(\sin\)/\(\cos\) 在 0 处的取值，意味着「第 0 位」在所有维度上都对应一个非常特殊的「起点」向量。第二，前两维（高频 \(\omega = 1\)）变化非常剧烈，一步跳得很远；后两维（低频 \(\omega = 0.01\)）几乎不动。第三，每个 \(pos\) 的 PE 范数都接近 \(\sqrt{d_{\mathrm{model}}/2} = \sqrt{2}\)，因为每对 \((\sin, \cos)\) 在任何角度下平方和都是 1。

这条「范数恒定」性质很重要：它意味着 sinusoidal PE 不会因为位置远而变得很大，加到 word embedding 上不会盖过语义。

3.5 把同一个例子拓展到 \(d_{\mathrm{model}} = 8\)

把 \(d_{\mathrm{model}}\) 从 4 扩到 8，频率多两个：\(\omega_0 = 1\)、\(\omega_1 = 0.1\)、\(\omega_2 = 0.01\)、\(\omega_3 = 0.001\)。可以看到 \(\omega\) 几何递减，每次缩 \(\sqrt{10}\) 倍。\(pos = 0..7\) 八个位置的 PE 列出来：

\[ \begin{aligned} \operatorname{PE}(0) &= [0.000, 1.000, 0.000, 1.000, 0.000, 1.000, 0.000, 1.000] \\ \operatorname{PE}(1) &= [0.841, 0.540, 0.099, 0.995, 0.010, 1.000, 0.001, 1.000] \\ \operatorname{PE}(2) &= [0.909, -0.416, 0.198, 0.980, 0.020, 1.000, 0.002, 1.000] \\ \operatorname{PE}(3) &= [0.141, -0.990, 0.295, 0.955, 0.030, 1.000, 0.003, 1.000] \\ \operatorname{PE}(4) &= [-0.756, -0.654, 0.389, 0.921, 0.040, 0.999, 0.004, 1.000] \\ \operatorname{PE}(5) &= [-0.959, 0.284, 0.479, 0.878, 0.050, 0.999, 0.005, 1.000] \\ \operatorname{PE}(6) &= [-0.279, 0.960, 0.565, 0.825, 0.060, 0.998, 0.006, 1.000] \\ \operatorname{PE}(7) &= [0.657, 0.754, 0.644, 0.764, 0.070, 0.998, 0.007, 1.000] \end{aligned} \]

注意几件事。第一，前两维（最高频）已经在 8 步之内走过了大约一个完整周期的相位变化，pos = 4 之后就开始负值；第二，最后两维几乎不动，因为 ω = 0.001 意味着要 6283 步才一圈；第三，相邻 pos 的 PE 在所有维度上都很接近，但相距 4 的 PE 在前几维已经差很多——这就是「高频区分相邻、低频区分整段」的表现。

把这个表反复看几遍，你会建立起对 sinusoidal 的「肌肉记忆」：知道哪些维度在变、哪些在静、哪些在反向。这种直觉比任何公式都管用。

3.6 范数与方向：分开看

sinusoidal 的另一个常被忽视的性质是：每个 \(pos\) 的 PE 范数完全相等（\(= \sqrt{d_{\mathrm{model}} / 2}\)），所以「位置」全部信息都在「方向」上而不是「长度」上。

这条性质对 LayerNorm 友好——LayerNorm 会把范数归一掉、保留方向，PE 的位置信息因此会原样保留下来。如果换成「位置越远 PE 越大」之类的非范数恒定方案，LayerNorm 后位置信息会被显著抹掉。这条 sinusoidal 与 LayerNorm 配合得好的隐性贡献，原论文没写过，但读多份后续分析（包括 Pre-LN vs Post-LN 的几篇文章）就能拼起来.

四、关键性质：相对位置可以线性表达

4.1 这条性质的精确陈述

原论文写：「We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset k, PE(pos+k) can be represented as a linear function of PE(pos)」。

翻译成数学：对任意固定的偏移量 k，存在一个不依赖 pos 的线性变换 M_k，使得

\[ \operatorname{PE}(pos + k) = M_k \operatorname{PE}(pos) \]

这条性质漂亮在哪里？模型如果想学「这两个 token 离我多远」，只要学一个 M_k 就够了，而不需要为每对 (pos, pos+k) 单独记一个映射。

换一个角度更直观：当你说「我希望模型在 attention 里识别『前 3 个位置』这种相对关系」，你不需要让模型把所有 (pos, pos+3) 都在数据里见过；你只需要让它学一次「+3 对应的旋转」就够了。这种「相对位置一次学习、全 pos 复用」的能力，是 sinusoidal 相比可学习位置最关键的优势。

4.2 用三角恒等式推一遍

这条性质本质上来自一组初等三角恒等式：

\[ \begin{aligned} \sin(\alpha + \beta) &= \sin \alpha \cos \beta + \cos \alpha \sin \beta \\ \cos(\alpha + \beta) &= \cos \alpha \cos \beta - \sin \alpha \sin \beta \end{aligned} \]

把它写成矩阵形式：

\[ \begin{pmatrix} \sin(\alpha + \beta) \\ \cos(\alpha + \beta) \end{pmatrix} = \begin{pmatrix} \cos \beta & \sin \beta \\ -\sin \beta & \cos \beta \end{pmatrix} \begin{pmatrix} \sin \alpha \\ \cos \alpha \end{pmatrix} \]

也就是说，「角度从 α 加到 α+β」这个操作，对 (sin α, cos α) 这一对值来说，是乘以一个旋转矩阵：

\[ R(\beta) = \begin{pmatrix} \cos \beta & \sin \beta \\ -\sin \beta & \cos \beta \end{pmatrix} \]

现在回到 PE。PE(pos) 在第 \(i\) 个频率上的两个分量是 \((\sin(\text{pos} \cdot \omega_i), \cos(\text{pos} \cdot \omega_i))\)。从 pos 到 pos + \(k\)，意味着角度从 \(\text{pos} \cdot \omega_i\) 加到 \((\text{pos} + k) \cdot \omega_i\)，多出来的角度是 \(k \cdot \omega_i\)。

所以：

\[ \begin{pmatrix} \sin((pos + k) \omega_i) \\ \cos((pos + k) \omega_i) \end{pmatrix} = \begin{pmatrix} \cos(k \omega_i) & \sin(k \omega_i) \\ -\sin(k \omega_i) & \cos(k \omega_i) \end{pmatrix} \begin{pmatrix} \sin(pos \cdot \omega_i) \\ \cos(pos \cdot \omega_i) \end{pmatrix} \]

这就是一个旋转矩阵 R(k · ω_i)。因为不依赖 pos，它就是「线性变换 M_k」在第 i 个频率块上的样子。

把所有 d_model/2 个频率上的旋转矩阵堆叠成一个块对角矩阵，就得到完整的 M_k。

4.3 这条性质的意义

「PE(pos + k) 是 PE(pos) 的线性变换」对模型意味着什么？

attention 是线性变换 + softmax 的组合。如果模型想用 attention 表达「我要关注离自己 k 步的 token」，它需要在 query 和 key 上构造一种「能识别相对距离」的运算。如果 PE 能直接通过一个 k 决定的线性变换转换，那么这种识别可以通过 W_Q、W_K 矩阵自然学出来——不需要额外的结构。

换句话说，sinusoidal PE 把「相对位置识别」这件事变成一个「W_Q、W_K 能不能学到合适形状」的问题，而不是一个「网络需要多少额外能力」的问题。这就是 sinusoidal 在外推上「比可学习位置更好」的根源：可学习位置在训练数据没有覆盖到的 pos 上压根没值，而 sinusoidal 在任何 pos 上都有定义且服从同样的几何规律。

4.4 一个常见的误解

「sinusoidal 既然有这么好的相对位置性质，为什么 attention 还会忽略远距离信息？」

因为「能用线性变换表达」不等于「网络一定会学到这个变换」。原论文的实验只能说明 sinusoidal 在 BLEU 上略优于可学习位置（消融实验给的差距很小），它没说模型一定会自动用上这条数学性质。后续的研究（Wang et al. 2020 的 “On Position Embeddings in BERT”）显示，原版 sinusoidal 在长程依赖上的实际利用是部分的、有缺陷的——这也是后来 RoPE / ALiBi 出现的动力。

线性可表达只是一个「免费的下限」，不是「保证有用的上限」。

把这条性质和后面 RoPE 的设计对照一下，你会发现 RoPE 的进步正是把「下限」推成「上限」：它通过把旋转直接焊在 Q、K 投影里，强制 attention 必须以「角度差」的形式利用相对位置。这就把模型「能不能学到相对位置」从一个开放问题变成了结构上的保证。

五、为什么是相加，不是拼接

5.1 原论文怎么写的

「The positional encodings have the same dimension d_model as the embeddings, so that the two can be summed.」

这一句一笔带过，但很多读者第一次扫论文都没看清楚——以为是 concat。事实上原论文从头到尾，PE 和 word embedding 的关系都是直接相加：

\[ x = \operatorname{embed}(token) + \operatorname{PE}(pos) \]

5.2 相加在数学上意味着什么

「相加」乍看奇怪：把语义向量和位置向量混在一起，岂不是会污染语义？

直觉上的担心是合理的，但忽略了一个事实：embedding 空间是高维的（\(d_{\mathrm{model}} = 512\)），而模型有能力在不同子空间上分别承载不同信息。如果训练数据足够，模型会自然学到「这一组维度主要受 PE 主导，那一组维度主要受 word embedding 主导」。后续研究（如 BERTology 系列）通过线性探针验证过这一点：早期层的某些维度确实更接近 PE 表征，深层逐渐被语义覆盖。

更技术性的解释来自一个相对简单的观察：相加可以看作「在 d_model 维空间里对 word embedding 做一个位置相关的偏移」。所有同样位置的 token 都被偏移到同一个方向，所以模型在 attention 里很容易识别「这两个 token 的 pos 差多少」——他们的偏移差就是 PE(pos₁) - PE(pos₂)，而这个差又恰好由前面说的旋转性质刻画。

5.3 拼接为什么不被采用

拼接（concat）的方案是：把 d_model 切成两段，前 d_w 维放 word embedding，后 d_p 维放 PE。

形式上看，这样语义和位置在维度上完全分离，似乎更干净。但实际并不被采用，原因有三：

第一，参数效率低。拼接要么挤掉一段语义维度（让 word embedding 只能用 d_w < d_model 维），要么扩大 d_model 来腾出空间。前者削弱表达，后者增加 attention 的计算量。

第二，表达约束。拼接相当于强制让前几层「不要在语义和位置之间发生混合」。而相加给了模型完全的自由：它可以在某些维度上让两者纯粹叠加，也可以在另一些维度上让两者形成有意义的交互。

第三，实验结果。原论文 §3.5 末尾的消融提到他们试过「learned positional embeddings」，效果与 sinusoidal 相加几乎一样；后续社区试过 concat 的若干变体（包括 Gehring et al. 2017 的 ConvSeq2Seq 中的 concat 设计），在大模型规模下并未显示稳定优势。

「相加 vs 拼接」是一个典型的「直觉认为 A 更好、实际 B 表现一样还更省」的工程案例。

5.4 一个鲜为人知的细节：embedding 缩放

如果你打开原论文的代码（或者后来 Annotated Transformer 的复现），会发现一行容易被忽视的细节：

x = embed(token) * math.sqrt(d_model) + PE(pos)

word embedding 在加 PE 之前先乘以 \(\sqrt{d_{\mathrm{model}}}\)。更稳妥的理解，不是把它解释成某个通用初始化公式的必然结果，而是把它看成一种输入尺度校准：PE 是固定函数，token embedding 则随初始化与训练演化；在训练早期，把 token embedding 放大到与 PE 可比的量级，通常更有利于让模型同时看到语义和位置，而不是让固定的 PE 过早主导输入。

这一步也不该被夸大成「所有实现都必须如此」。原论文这样做，Annotated Transformer 也沿用；但不同框架、初始化和归一化顺序下，具体数值解释会变。真正该记住的是工程原则：当你把固定 PE 与可学习 embedding 直接相加时，要检查两者在训练初期的尺度是不是同一量级。

这也解释了为什么调试位置编码时，除了看公式本身，还要一起看 embedding 初始化、LayerNorm 放置位置和 dropout。位置编码的问题，很多时候不是「公式错了」，而是「尺度没对齐」。

六、可学习位置编码：BERT 与 GPT 的选择

6.1 形式上有多简单

可学习位置编码的实现比 sinusoidal 还要简单：

self.pos_embed = nn.Embedding(max_len, d_model)
# ...
x = embed(token) + self.pos_embed(torch.arange(seq_len))

就是一张 \((\mathrm{max\_len}, d_{\mathrm{model}})\) 的可训练查表。每一行随机初始化（通常是 \(N(0, 0.02^2)\)），随后跟着模型一起训练。

BERT 用的是这种，\(\mathrm{max\_len} = 512\)；GPT-2 也用这种，\(\mathrm{max\_len} = 1024\)；早期的 ViT 用同样的方案，\(\mathrm{max\_len} = \text{patch 数} + 1\)（class token）。它们之所以选可学习而不是 sinusoidal，原因之一是当时的工程哲学是「能学的就让它学」，原因之二是早期模型的 \(\mathrm{max\_len}\) 都不大，外推不是关键约束。

6.2 它学到了什么

可学习位置本质上是一张 \((\mathrm{max\_len}, d_{\mathrm{model}})\) 查表。它的优点是直接：模型不需要接受人为设计的几何规律，而是把「第几位该长什么样」交给数据去学。BERT 一类模型训完后，相邻位置更接近、远端位置更疏离，说明模型确实会学出自己的位置几何。

代价也同样直接：没见过的位置没有梯度。训练长度如果是 512，第 513 位对应的那一行就没有被充分学习过；一旦推理长度越界，模型面对的就不再是「陌生但有规律的新位置」，而是查表边界之外的未充分训练参数。

6.3 长度外推差：训练 512、推理 2048 怎么办

这就引出了可学习位置最现实的问题：长度外推。假设模型只在 \(\mathrm{max\_len} = 512\) 上训练，推理时却喂到 2048，那么前 512 位还能查表，后面的位置不是不存在，就是后来补出来但没被充分训练过的参数。

常见应对方式其实只有三类：

截断。只保留训练长度内的 token。
扩表后继续训练。把 max_len 拉长，再给新位置补梯度。
改用更适合外推的结构。例如相对位置、RoPE、ALiBi；RoPE 上还能做 Chen et al. 2023 那类位置插值，但那已经不是原始 learned PE 自己的能力。

图里三条曲线对比的是相同训练长度下，三类位置编码在推理时随长度变化的表现。可学习位置掉得最快，不是因为它表达力低，而是因为它把位置建模成了有限表项；一旦越过表边界，模型就失去了可以复用的几何规律。

6.4 为什么 BERT 没在意

原因很简单：它当时不需要解决这个问题。BERT 的主流下游任务大多在 512 token 内完成，GPT-2 的默认工作区间也不长；只要训练长度和推理长度基本一致，查表式位置编码就完全够用。真正暴露短板的是后来的长上下文场景，此时 RoPE、ALiBi 这类函数型或相对位置方案才显出优势。

6.5 一条更准确的迁移轨迹

所以更准确的分界线不是年份，而是任务是否要求长度外推。固定长度任务里，learned position 依然合理；长上下文 LLM 里，更常见的是 RoPE、ALiBi 这类把相对位置和外推稳定性放在更前面的方案。

六点六、再做一个手算实验：6 token 的 attention 中 PE 起的作用

这一节我们做一个小实验，把 PE 在 attention score 里的贡献量化。

设 \(d_{\mathrm{model}} = 8\)、\(d_k = 8\)（单头），\(W_Q = W_K = I\)（单位矩阵），所有 word embedding 设为 0（彻底剥离语义影响）。这样 attention score 完全由 PE 决定。用 sinusoidal_pe(6, 8) 算出 PE 表，再算 \(\operatorname{PE} \cdot \operatorname{PE}^\top\) 这张 \((6, 6)\) 的 score 矩阵。

按前面三角恒等式推导出来的内积性质，每个 \((i, j)\) 上的 score 等于 \(\sum_k \cos((i - j) \omega_k)\)，\(d_{\mathrm{model}} = 8\) 时有 4 个频率：\(\omega_0 = 1\)、\(\omega_1 = 0.1\)、\(\omega_2 = 0.01\)、\(\omega_3 = 0.001\)。

具体值：

\[ \begin{aligned} \operatorname{score}(i, i) &= \cos(0) + \cos(0) + \cos(0) + \cos(0) = 4.000 \\ \operatorname{score}(i, i \pm 1) &= \cos(1) + \cos(0.1) + \cos(0.01) + \cos(0.001) \\ &\approx 0.540 + 0.995 + 1.000 + 1.000 = 3.535 \\ \operatorname{score}(i, i \pm 2) &= \cos(2) + \cos(0.2) + \cos(0.02) + \cos(0.002) \\ &\approx -0.416 + 0.980 + 1.000 + 1.000 = 2.564 \\ \operatorname{score}(i, i \pm 3) &= \cos(3) + \cos(0.3) + \cos(0.03) + \cos(0.003) \\ &\approx -0.990 + 0.955 + 1.000 + 1.000 = 1.965 \\ \operatorname{score}(i, i \pm 4) &= \cos(4) + \cos(0.4) + \cos(0.04) + \cos(0.004) \\ &\approx -0.654 + 0.921 + 0.999 + 1.000 = 2.266 \\ \operatorname{score}(i, i \pm 5) &= \cos(5) + \cos(0.5) + \cos(0.05) + \cos(0.005) \\ &\approx 0.284 + 0.878 + 0.999 + 1.000 = 3.161 \end{aligned} \]

非常有意思的事在最后两行：score(i, i±4) 和 score(i, i±5) 居然比 score(i, i±3) 大。这是高频维度回绕引起的「位置歧义」——cos(5) 突然变正了。

把每一行做 softmax 之后，attention 权重不是单调下降的，而是「相邻最强、远端有反弹」。这正是 sinusoidal 不够强的地方：单凭 PE，attention 不能保持「越近越亲」的单调性。

实际模型里这个问题被 W_Q、W_K 学到的非平凡形式部分缓解，但依然是 sinusoidal 的固有结构性缺陷之一。RoPE 通过把每个频率块的范围限制在「不会绕回」的范围内，并配合 base scaling，部分修复了这个问题；ALiBi 的线性衰减则彻底单调，从根上避免「越远反而越亲」的反常。

这个实验五分钟就能跑出来，建议读者自己写一遍——比读十段文字都更能让 sinusoidal 的优劣在脑子里立起来。

七、sinusoidal 的外推：能用，但有限

7.1 sinusoidal 至少没崩

把上一节的逻辑应用到 sinusoidal：在训练长度之外，sinusoidal 仍然是一个良好定义的函数。pos = 2048 时它有值，pos = 65536 时它仍然有值，且这些值与 pos = 0..N 时的几何规律完全一致。

这意味着 sinusoidal 在长度外推上至少不会崩。把训练 512 的模型推到 2048，它至少能跑——不报错、不返回 NaN。

7.2 但「能跑」不等于「跑得好」

跑能跑，效果是另一回事。

后续研究（Press et al. 2021 的 ALiBi 论文里有一张关键表）显示，sinusoidal 在训练长度之外的位置上，attention 模式会发生显著漂移：模型学到的「应该关注哪些位置」依赖于训练时见过的 PE 取值范围；训练时的 pos = 511 对应一组特定的 sin/cos 值，推理时 pos = 1023 对应一组数值上没见过的 sin/cos 值——尽管它们处在同一条函数曲线上，模型的内部表征还是会跑偏。

具体的下游表现是：困惑度（perplexity）随推理长度逐渐上升，但比可学习位置慢得多。这就是 ALiBi 论文标题里那个判断的来源：「Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation」——它是在批评 sinusoidal 的外推，不是赞扬。

7.3 sinusoidal 失败的可解释性证据

更细致的诊断来自后续一批 length generalization 研究。它们大体同意一点：sinusoidal 虽然比 learned position 更能外推，但这不等于它能稳定外推。训练长度之外，模型仍可能因为没见过那一段 sin/cos 组合而让 attention 模式漂移。

这里还有一个很容易被误读的现象：例如 Haviv et al. 2022 展示的那类 decoder-only + causal mask 设置里，NoPE 也能得到不错的外推结果。这不是在否定位置编码本身，而是在提醒你，causal mask 也会向模型注入顺序偏置。对 encoder、双向建模，或者真正依赖长距离对齐的任务，这个结论并不能直接照搬。

工程上的含义因此更朴素：如果你的任务明确要求训练短、测试长，那么不能只问「哪种编码在训练集上更顺手」，还要问「架构里除了位置编码之外，还有没有别的顺序来源」以及「这种来源能不能泛化到更长的长度」。

7.4 把 sinusoidal 和 ALiBi 比较一下衰减形态

最后一个对比角度。sinusoidal 给 attention 注入的 prior 是 cos((i-j)ω) 的求和——它是震荡的、有回绕的，远端可能反弹。ALiBi 给 attention 注入的 prior 是 -m|i-j|——它是单调的、严格衰减的、永不回绕。

直观上 ALiBi 「更像我们对距离的预期」。但这种单调性也意味着 ALiBi 对长程依赖的表达力天然受限：它强迫远端 attention 越来越小，而不像 sinusoidal 留有「远端某些位置反而权重大」的余地。

所以这两个方案不是简单的「ALiBi 更好」，而是「在外推稳定性 vs 远程表达力之间各自做了不同折中」。位置编码没有单一正确答案，只有更贴合约束的选择。

7.5 这条不足开启了 RoPE / ALiBi

整个第 41 篇「现代位置编码」的故事就是从这里开始的。如果你接受 sinusoidal 的外推不够强、可学习位置的外推几乎为零这两个事实，下一步问的问题就是：

「能不能把位置信息从『加到输入』的层面挪到『直接介入 attention 的打分』的层面？」

答案是可以。RoPE（Su et al. 2021）通过把每对维度看成复平面上的旋转，让相对位置以「角度差」的形式直接进入 Q·Kᵀ；ALiBi 通过给 attention score 减去一个与距离成正比的偏置项，让远端 attention 自然衰减。这两个方案都不依赖训练时见过哪些 pos，所以对外推几乎是「免费」的。

我们在第 41 篇会用同样的方法把 RoPE 和 ALiBi 拆开。这一篇你只需要把 sinusoidal 的「线性表达相对位置」这条性质牢记——它就是 RoPE 进一步推到极致的那个数学根基。

八、一段可运行代码：把 PE 算出来看看

8.1 PyTorch 实现 sinusoidal

下面是一段最小、能运行的 sinusoidal 实现，与 Annotated Transformer 的版本等价（仅去除注释）：

import math
import torch

def sinusoidal_pe(seq_len: int, d_model: int) -> torch.Tensor:
    pe = torch.zeros(seq_len, d_model)
    position = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(1)
    div_term = torch.exp(
        torch.arange(0, d_model, 2, dtype=torch.float)
        * -(math.log(10000.0) / d_model)
    )
    pe[:, 0::2] = torch.sin(position * div_term)
    pe[:, 1::2] = torch.cos(position * div_term)
    return pe

注意三个细节。第一，div_term 用 exp(-log(10000) * 2i / d_model) 计算 1 / 10000^(2i / d_model)，比直接 pow 在数值上更稳定。第二，偶数维填 sin、奇数维填 cos，与论文公式一一对应。第三，输出形状 (seq_len, d_model)，使用时直接广播相加：

x = token_embed * math.sqrt(d_model) + sinusoidal_pe(seq_len, d_model).to(device)

8.2 一个完整性检查

把 \(d_{\mathrm{model}} = 4\)、\(\mathrm{seq\_len} = 4\) 跑一遍，结果应该和我们在第 3.4 节手算的一致：

>>> sinusoidal_pe(4, 4)
tensor([[ 0.0000,  1.0000,  0.0000,  1.0000],
        [ 0.8415,  0.5403,  0.0100,  1.0000],
        [ 0.9093, -0.4161,  0.0200,  0.9998],
        [ 0.1411, -0.9900,  0.0300,  0.9996]])

第一行全是 [0, 1, 0, 1]，正是 pos = 0 时所有 sin 为 0、所有 cos 为 1 的特殊情形。其余几行的高频维度（前两列）剧烈变化，低频维度（后两列）几乎不动。和手算结果误差只来自 cos(0.02)、cos(0.03) 离 1 的微小差距。

8.3 一个可视化建议

如果你想真正建立直觉，强烈建议把 sinusoidal_pe(512, 64) 算出来，画一张热力图（横轴 pos，纵轴维度索引，颜色表示数值）。你会看到：

顶部几个维度（高频）像高频细密的条纹；
中间维度像稳定的中频波；
底部几个维度（低频）几乎是渐变带。

这张图基本上就是上面 SVG 的真实版。第一次看到它的人通常会在那一刻真正意识到「sinusoidal 是把位置投影到一组多尺度傅里叶基」这件事。

九、几个常被忽视的工程细节

9.1 PE 是否参与 dropout

原论文 §5.4 提到，PE 加到 word embedding 之后，整个 sum 一起过 dropout：

x = dropout(token_embed * sqrt(d_model) + sinusoidal_pe)

这个 dropout 通常 p = 0.1。它正则化的不是 PE 本身，而是「语义 + 位置」这个输入组合；很多复现把这一步省掉也能训，但早期收敛和后期泛化往往会有差别。

9.2 PE 是否要乘 \(\sqrt{d_{\mathrm{model}}}\)

不要给 PE 单独乘这个因子。原论文里的缩放是作用在 token embedding 上，用来做输入尺度校准；sinusoidal PE 本身每个频率块的能量固定，不需要额外放大。是否沿用这一步，取决于你的初始化和归一化顺序，但原则不变：先看两者量级是否对齐。

9.3 推理时是不是要重新生成 PE

不需要把它当参数维护。PE 本质上是固定张量，初始化时算一次，之后按 pos 取行。在 PyTorch 里，常见做法是把它注册成 buffer：

self.register_buffer("pe", sinusoidal_pe(max_len, d_model))

这样它会跟模型一起迁移 device 和 dtype，但不会进入 optimizer。

9.4 长度可以延长，怎么动态增长

如果你想在推理时支持比 max_len 更长的序列：sinusoidal 直接重新算即可，因为它没有训练参数。查表式位置则要扩表、插值或继续训练；这就是函数型位置编码最实在的工程优势。

9.5 padding 与 PE 怎么相处

batch 内不同样本长度不同时，要把短的 pad 到长的。pad token 通常是 [PAD]，对应一个特殊的 embedding。问题是：pad 位置要不要加 PE？

答案通常是「照常加，再用 attention mask 屏蔽掉」。这样前向路径保持一致，不需要为 pad 位置额外分叉一套逻辑。

9.6 多 batch 并行下的 PE

PyTorch 里常把 PE 写成 (1, max_len, d_model)，这样可以直接广播相加：

x = token_embed + self.pe[:, :seq_len]

这样不会因为 batch size 变化重新生成 PE，也不会把它复制 batch 次。

9.7 检查清单：实现 PE 时常踩的五个坑

这一节压成检查清单，其实只需要记住四件事：

先看 token embedding 和 PE 的量级有没有对齐。
把 PE 注册成 buffer，不要当普通 tensor 到处手搬。
确认偶数维是 sin、奇数维是 cos，没有写反。
检查 dtype、broadcast 和 max_len，别让数值精度或显存占用在实现层面先出问题。

这四条过一遍，大多数实现错误都能在真正训练前被拦下来。

十、与系列其他章节的衔接

这一篇把问题停在两个层面：第一，为什么位置编码是结构性必需；第二，为什么 sinusoidal 会呈现出今天这套公式和性质。往后最自然的两条线索，其实也正对应这两件事。

一条线索是回到整体架构：看 embed + PE 如何穿过 encoder、decoder、残差与归一化，被层层加工成真正可用的表征。另一条线索是继续沿位置编码往前走：看 RoPE、ALiBi 如何把位置从「输入向量上的加法项」挪到 attention 打分本身。

如果只记一条衔接关系，那就是：21 回答的是「为什么必须有位置」，后面的现代位置编码章节回答的是「位置如何以更适合长上下文的方式进入 attention」。

十一、关键概念回顾

回头梳理这一整篇，有几个判断是真正立得住的，也是后续所有位置编码讨论的地基。

第一个判断：self-attention 是排列等变的。这不是某种工程缺陷，也不是实现细节，而是数学上的硬事实——从投影、打分到 softmax 加权求和，每一步都对位置无感。一旦你把这条事实放在心里，「为什么需要位置编码」就不再是一个需要被回答的开放问题，而是一个早已写进 attention 定义里的必然结论。

第二个判断：sinusoidal 的设计核心是「让相对位置可以通过线性变换表达」。这不只是漂亮，它直接决定了模型能否用 W_Q、W_K 自然学到「相对距离敏感」的 attention 模式。10000 这个数字、sin/cos 的奇偶交错、所有频率覆盖从最高到最低——所有这些细节都为这一个核心性质服务。

第三个判断：PE 是「相加」而不是「拼接」，背后是「让模型在高维空间里自由分配子空间」的工程哲学。相加给模型自由，拼接给模型约束；在 d_model 足够大、训练数据足够多的前提下，自由几乎总是赢。

第四个判断：可学习位置在长度外推上有结构性缺陷。它不是「外推效果差一点」，是「训练长度外的权重根本没被训过」——这是查表型方案的固有问题。理解这条，就理解了为什么大模型时代主流位置编码必须是函数型（sinusoidal、RoPE、ALiBi），不能是查表型。

第五个判断：sinusoidal 在外推上比可学习位置好得多，但仍然不够，因为它的「相对位置可线性表达」是一条免费的下限，不是一条强制的上限。模型不一定在所有任务上都能学到这条性质，远端 attention 仍然可能漂移。这条不足是 RoPE / ALiBi 的起点。

把这五条串起来，你就知道为什么这一整篇花了一万多字讲一个看似简单的「加上 sin/cos」——它其实是 attention 这套架构的一个结构性补丁，而这个补丁的设计哲学决定了后面十年位置编码的演化方向。

还可以再补一条第六个判断：位置编码的设计哲学不是「公式好不好看」，而是「在外推稳定性、参数效率、训练稳定性、表达力之间做什么折中」。理解这套折中坐标系，才能在面对一个新的位置编码方案时快速判断它解决的是哪个问题、付出的是什么代价。这一点比记住具体的 sin/cos 公式重要十倍——因为公式会换、规范会改、模型会迭代，但「折中坐标系」是位置编码这件事本身的几何形状，不会变。

最后再回头看开头那句被读者忽视的论文话：「we must inject some information about the relative or absolute position of the tokens」。Vaswani 等人把这句话写得克制，把 §3.5 的篇幅压得很短，但这句话的分量足以撑起一个十年的研究方向——从 sinusoidal 到 RoPE 到 ALiBi，每一步都是在不同的层面回应这同一个 must。

十二、常见误解

误解一：位置编码是 Transformer 的可选模块，去掉也能训

对没有其他顺序偏置的纯 self-attention 来说，基本是这样：去掉位置信息后，模型只剩排列等变性，「猫吃鱼」和「鱼吃猫」无法区分。某些任务（比如 Set Transformer、对集合建模）确实就希望这种性质，因为输入本来就是无序集合。

但这也不是绝对命题。对于 decoder-only 加 causal mask 的特殊设置，mask 本身就会提供一部分顺序信息，所以即使没有显式 PE，模型也可能学到有限的位置感。真正该问的是：你的架构里除了 PE，还有没有别的顺序来源。

误解二：sinusoidal 是 concat 到 word embedding 上的

不是。原论文从头到尾是相加，且要求 PE 维度 = d_model。把它理解成 concat 是最常见的读论文 bug，实现也会因此偏差。

误解三：10000 是某种神秘最优值

不是。10000 是「足够大、覆盖足够长尺度、不需要 tune 的经验选择」。RoPE 沿用了 10000，但有些工作（如长上下文 LLaMA 微调）会把它调到 1e6 来扩展位置周期。这个数字是工程惯例，不是理论最优。

误解四：可学习位置编码本质上更强，因为「能学」

不一定。能学的代价是参数量、训练长度上限、外推能力差。在长上下文语言模型的工程语境里，函数型位置编码（sinusoidal、RoPE、ALiBi）通常更占优；但在固定长度任务里，可学习位置仍然完全合理。「能学」只是更灵活，不自动等于更好。

误解五：sinusoidal 的相对位置性质保证模型一定能用上

只保证「能用线性变换表达」，不保证「模型一定会学到这个变换」。后续可解释性研究显示，原版 Transformer 在远端位置上的 attention 模式仍然有漂移。这条「数学下限」与「工程实际」之间的鸿沟，正是 RoPE 把同一原理直接焊死在 attention 公式里的动机。

误解六：把 PE 设为可训练参数总是更灵活更好

只在训练长度内更灵活。一旦推理长度超过训练长度，可训练 PE 往往就无法直接外推，灵活反而成累赘。函数型 PE 在这件事上的优势是结构性的，不是「调一下就行」。

误解七：用 BFloat16 做 PE 不会有精度问题

会。BFloat16 的尾数精度只有 7 bits，对应大约 0.008 的相对误差。当 ω 很小（低频维度）、pos 很大（长上下文）时，pos × ω 这个角度乘积容易在 BFloat16 里产生 0.001 量级的舍入，从而让远端位置的 PE 出现可观察的偏差。生产实现里通常用 Float32 算 PE，再 cast 到 BFloat16 与 word embedding 相加。这条细节在 LLaMA 实现的 RoPE 里也专门处理过。

误解八：相加和拼接对 attention 等价

不等价。相加让 PE 与 word embedding 共享同一组 W_Q、W_K，attention 里 (W_Q (e + p)) · (W_K (e + p))ᵀ 展开后会产生 e·e、e·p、p·e、p·p 四项，模型可以同时利用语义—语义、语义—位置、位置—位置三种交互。拼接强行把语义和位置切到不同子空间，限制了交互形式。这件事 Ke et al. 2021 的 TUPE 论文里有完整论证。

十三、参考文献

下面只保留正文里明确讨论、或直接承接论点的文献。

Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017. §3.5 Positional Encoding 是本篇的主轴。
Gehring, J. et al. “Convolutional Sequence to Sequence Learning.” ICML 2017. ConvSeq2Seq 中的 learned positional embedding 与 concat 设计，是 Vaswani 选择 sinusoidal 时的直接对照。
Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL 2019. 可学习位置编码（max_len = 512）的代表实现。
Radford, A. et al. “Language Models are Unsupervised Multitask Learners.” OpenAI Technical Report, 2019. GPT-2 的可学习位置编码（max_len = 1024）。
Shaw, P., Uszkoreit, J., Vaswani, A. “Self-Attention with Relative Position Representations.” NAACL 2018. 相对位置编码的早期奠基工作。
Raffel, C. et al. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” JMLR 2020. T5 的 relative position bias 设计。
Su, J. et al. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” arXiv:2104.09864, 2021. RoPE 提出。
Press, O., Smith, N. A., Lewis, M. “Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation.” ICLR 2022. ALiBi 提出，并系统比较 sinusoidal、可学习位置的外推表现。
Chen, S. et al. “Extending Context Window of Large Language Models via Positional Interpolation.” arXiv:2306.15595, 2023. 在 RoPE 上的位置插值方法。
Wang, B., Zhao, L., et al. “On Position Embeddings in BERT.” ICLR 2021. 系统分析 BERT 各类位置编码的实证差别。
Ke, G., He, D., Liu, T.-Y. “Rethinking Positional Encoding in Language Pre-training.” ICLR 2021. TUPE，再次反思绝对位置编码的若干默认假设。
Gulati, A. et al. “Conformer: Convolution-augmented Transformer for Speech Recognition.” Interspeech 2020. 卷积带来的局部位置感与 attention 互补，是位置编码主题的延伸。
Haviv, A. et al. “Transformer Language Models without Positional Encodings Still Learn Positional Information.” Findings of EMNLP 2022. NoPE 现象的代表论文。

← 上一篇：20｜Transformer 整体架构　|　下一篇：22｜Encoder 详解 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer

文章导航

目录