alibi 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】41｜位置编码演进：Sinusoidal → Learned → RoPE → ALiBi

2026-04-15 | transformer | #transformer #positional-encoding #rope #alibi #long-context

Transformer 本身没有递归和卷积，如果不注入位置信息，它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi，解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”，以及长上下文为什么让位置外推变成核心问题。