limitations 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】55|Transformer 的根本局限:为什么 O(n²) 是终极瓶颈

Transformer 的成功没有消除它的结构性代价。本文区分工程瓶颈和架构瓶颈,解释 O(n²) attention、KV Cache 线性增长、自回归串行性、长上下文与长期记忆的差异、位置外推和数据效率问题,并说明为什么 Mamba、RWKV、RetNet、线性注意力等路线都在试图绕开同一组限制。