long-sequence 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】56｜状态空间模型：Mamba、S4 的线性复杂度路径

2026-04-15 | transformer | #transformer #state-space-model #mamba #s4 #long-sequence

Transformer 的 full attention 在长序列上代价高昂，状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba，解释 selective state space、parallel scan 为什么重要，以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。