state-space-model 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】56|状态空间模型:Mamba、S4 的线性复杂度路径

Transformer 的 full attention 在长序列上代价高昂,状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba,解释 selective state space、parallel scan 为什么重要,以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。