permutation-equivariance 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

从 cross-attention 到 self-attention 的退化路径 → 为什么 self-attention 是 O(1) 跳数 → 为什么它对位置完全无知(permutation-equivariant) → 「The cat sat on the mat. It was tired.」中 it→cat 的共指消解 → 为什么需要位置编码 → attention 不等于解释(向第 52 篇预告)。