【Transformer 与注意力机制】56|状态空间模型:Mamba、S4 的线性复杂度路径
Transformer 的 full attention 在长序列上代价高昂,状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba,解释 selective state space、parallel scan 为什么重要,以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 3 篇文章 · 返回首页
Transformer 的 full attention 在长序列上代价高昂,状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba,解释 selective state space、parallel scan 为什么重要,以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。
从 4K 到 1M+ 上下文的训练与推理工程——位置编码扩展、稀疏 attention、Ring Attention、KV 压缩与长上下文评测
系列收官:从 2022 到 2026 的四年拐点出发,梳理推理时 Scaling、世界模型、Agentic OS、专用芯片、架构创新、端侧、成本腰斩、合规八大趋势,并给出工程师成长路径与 25 篇索引。