alibi 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】41|位置编码演进:Sinusoidal → Learned → RoPE → ALiBi

Transformer 本身没有递归和卷积,如果不注入位置信息,它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi,解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”,以及长上下文为什么让位置外推变成核心问题。