positional-encoding 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】41｜位置编码演进：Sinusoidal → Learned → RoPE → ALiBi

2026-04-15 | transformer | #transformer #positional-encoding #rope #alibi #long-context

Transformer 本身没有递归和卷积，如果不注入位置信息，它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi，解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”，以及长上下文为什么让位置外推变成核心问题。

【Transformer 与注意力机制】21｜位置编码：为什么需要它，为什么用正弦

2026-04-15 | transformer | #transformer #positional-encoding #sinusoidal #attention

从「self-attention 是排列等变的」这件几乎被忽视的事实出发，推导出位置编码不是装饰、不是工程小技巧，而是结构性必需。原论文为什么选正弦、那个奇怪的 10000 是怎么来的、PE 与 embedding 是相加还是拼接、可学习位置和 sinusoidal 的本质差别在哪、为什么训练 512 推理 2048 会让可学习位置难以直接外推——这一篇把这些问题一次讲完，并把读者交到现代位置编码（RoPE、ALiBi）的门口。