后 Transformer 路线不是一条单行道。除了 56|Mamba/S4 代表的状态空间模型,还有线性注意力、RWKV、RetNet 等探索。它们目标相似:降低 full attention 的长序列成本。但方法不同,代价也不同。
讨论这些模型时要避免把所有“线性时间模型”混成一类。线性注意力改写 attention 公式,RWKV 更接近 RNN 化语言模型,RetNet 提出 retention 机制并支持多种计算模式。它们都在靠近同一个目标:既要高效处理长序列,又要保留 Transformer 的质量和训练便利性。
本篇能让你学会三件事:
- 线性注意力和标准 softmax attention 的差异;
- RWKV、RetNet 各自试图解决什么;
- 为什么理论复杂度低不等于真实替代。
一、线性注意力
标准 attention 的问题来自 \(QK^T\) 的二次关系。线性注意力试图把 softmax attention 改写成可结合的形式,让计算可以按序列线性累积。
一种直觉是使用特征映射 \(\phi\),把 attention 近似成:
\[ \phi(Q)(\phi(K)^T V) \]
这样可以先累积 \(\phi(K)^T V\),再和 query 交互,避免显式构造 \(n \times n\) 矩阵。
Performer、Linear Transformer 等工作都沿着这个方向探索。难点在于:softmax attention 的表达能力和数值性质不容易无损替代,近似带来的质量损失需要在真实任务中验证。
二、RWKV:RNN 推理形态
RWKV 试图结合 RNN 和 Transformer 的优点。它在推理时像 RNN 一样维护状态,避免保存全部历史;训练时又尽量利用并行化经验,让大规模语言模型训练可行。
RWKV 的吸引力在于部署:如果推理状态固定,长上下文成本会比 KV Cache 更可控。它对流式生成很自然。
挑战同样明显。RNN 式状态要压缩历史,如何保留复杂上下文信息?如何在大规模任务上匹配 Transformer?这些都需要实证回答。
三、RetNet:retention 机制
RetNet 提出 retention 机制,试图在三种模式之间统一:训练时 parallel,推理时 recurrent,长序列时 chunkwise。它的目标是既能并行训练,又能高效推理。
retention 可以理解为一种带衰减和状态累积的序列机制。它不像 full attention 那样保留所有 pairwise 关系,而是通过状态和分块处理降低成本。
RetNet 的意义在于,它明确把训练、推理和长序列三种计算形态放在同一个设计目标下。对于真实系统,这比单看理论复杂度更重要。
四、低复杂度的代价
降低复杂度通常意味着引入归纳偏置或近似。线性注意力改变 softmax 形式;RNN/SSM 路线压缩历史;RetNet 使用 retention 状态。每种方法都要回答:丢掉的 pairwise 显式访问,会不会伤害任务?
某些任务只需要局部或平滑长程依赖,低复杂度模型可能非常合适。另一些任务需要精确检索远处细节,full attention 或外部检索可能更稳。
所以架构选择要和任务、数据、硬件一起看。没有单一复杂度表能决定胜负。
五、硬件友好性
理论上 \(O(n)\) 不代表实际更快。GPU 喜欢大块密集计算;某些线性或递归形式如果 kernel 不友好,吞吐可能不如优化良好的 FlashAttention。
这也是现代架构论文越来越强调 hardware-aware design 的原因。一个新模型要成为通用底座,必须在真实硬件上高效训练和推理。
Transformer 之所以难以替代,一部分原因正是它已经被硬件和软件生态深度优化。
六、和 Mamba/SSM 的关系
Mamba 属于状态空间路线,RWKV 和 RetNet也强调状态和递归推理,线性注意力则从 attention 公式入手。它们不是同一种模型,但都在寻找一种比 full attention 更便宜的历史建模方式。
未来可能出现更多混合结构:某些层用 attention 做精确检索,某些层用状态机制处理长程背景,某些层用 MoE 扩大容量。
后 Transformer 的核心不是消灭 attention,而是让模型不再事事依赖 full attention。
七、关键概念回顾
- 线性注意力:改写 attention 计算,避免显式二次矩阵。
- RWKV:结合 RNN 推理状态和 Transformer 训练经验的语言模型路线。
- RetNet:使用 retention 机制统一 parallel、recurrent、chunkwise 计算。
- recurrent inference:推理时用状态逐步更新,而不是保存完整 KV Cache。
- 硬件友好性:理论复杂度能否转化为真实吞吐。
八、常见误解
8.1 “所有线性时间模型都一样”
不一样。线性注意力、SSM、RWKV、RetNet 的数学形式和工程路径都不同。
8.2 “复杂度低就一定更快”
不一定。真实速度还取决于 kernel、内存访问、并行度和硬件支持。
8.3 “这些路线已经证明 Transformer 过时”
还不能。它们展示了重要方向,但通用质量和生态仍需长期验证。
九、下一步
各种后 Transformer 路线已经展开。最后一篇回到大局:未来是某个架构替代 Transformer,还是 attention、SSM、MoE、检索和工具共同组成混合系统?
十、参考文献
- Katharopoulos, A. et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.
- Choromanski, K. et al. “Rethinking Attention with Performers.” ICLR 2021.
- Peng, B. et al. “RWKV: Reinventing RNNs for the Transformer Era.” EMNLP Findings 2023.
- Sun, Y. et al. “Retentive Network: A Successor to Transformer for Large Language Models.” arXiv:2307.08621, 2023.
← 上一篇:56|状态空间模型 | 下一篇:58|后 Transformer 时代 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】58|后 Transformer 时代:架构会消失还是会进化
后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer,更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线,解释为什么 Transformer 很难突然消失,也为什么它不可能原样解决所有问题。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。