【Transformer 与注意力机制】56|状态空间模型:Mamba、S4 的线性复杂度路径
Transformer 的 full attention 在长序列上代价高昂,状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba,解释 selective state space、parallel scan 为什么重要,以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
Transformer 的 full attention 在长序列上代价高昂,状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba,解释 selective state space、parallel scan 为什么重要,以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。