后 Transformer 路线不是一条单行道。除了 56|Mamba/S4 代表的状态空间模型,还有线性注意力、RWKV、RetNet 等探索。它们目标相似:降低 full attention 的长序列成本。但方法不同,代价也不同。
讨论这些模型时要避免把所有“线性时间模型”混成一类。线性注意力改写 attention 公式,RWKV 更接近 RNN 化语言模型,RetNet 提出 retention 机制并支持多种计算模式。它们都在靠近同一个目标:既要高效处理长序列,又要保留 Transformer 的质量和训练便利性。
本篇能让你学会三件事:
- 线性注意力和标准 softmax attention 的差异;
- RWKV、RetNet 各自试图解决什么;
- 为什么理论复杂度低不等于真实替代。
一、线性注意力
标准 attention 的问题来自 \(QK^T\) 的二次关系。线性注意力试图把 softmax attention 改写成可结合的形式,让计算可以按序列线性累积。
一种直觉是使用特征映射 \(\phi\),把 attention 近似成:
\[ \phi(Q)(\phi(K)^T V) \]
这样可以先累积 \(\phi(K)^T V\),再和 query 交互,避免显式构造 \(n \times n\) 矩阵。
Performer、Linear Transformer 等工作都沿着这个方向探索。难点在于:softmax attention 的表达能力和数值性质不容易无损替代,近似带来的质量损失需要在真实任务中验证。
二、RWKV:RNN 推理形态
RWKV 试图结合 RNN 和 Transformer 的优点。它在推理时像 RNN 一样维护状态,避免保存全部历史;训练时又尽量利用并行化经验,让大规模语言模型训练可行。
RWKV 的吸引力在于部署:如果推理状态固定,长上下文成本会比 KV Cache 更可控。它对流式生成很自然。
挑战同样明显。RNN 式状态要压缩历史,如何保留复杂上下文信息?如何在大规模任务上匹配 Transformer?这些都需要实证回答。
三、RetNet:retention 机制
RetNet 提出 retention 机制,试图在三种模式之间统一:训练时 parallel,推理时 recurrent,长序列时 chunkwise。它的目标是既能并行训练,又能高效推理。
retention 可以理解为一种带衰减和状态累积的序列机制。它不像 full attention 那样保留所有 pairwise 关系,而是通过状态和分块处理降低成本。
RetNet 的意义在于,它明确把训练、推理和长序列三种计算形态放在同一个设计目标下。对于真实系统,这比单看理论复杂度更重要。
四、低复杂度的代价
降低复杂度通常意味着引入归纳偏置或近似。线性注意力改变 softmax 形式;RNN/SSM 路线压缩历史;RetNet 使用 retention 状态。每种方法都要回答:丢掉的 pairwise 显式访问,会不会伤害任务?
某些任务只需要局部或平滑长程依赖,低复杂度模型可能非常合适。另一些任务需要精确检索远处细节,full attention 或外部检索可能更稳。
所以架构选择要和任务、数据、硬件一起看。没有单一复杂度表能决定胜负。
五、硬件友好性
理论上 \(O(n)\) 不代表实际更快。GPU 喜欢大块密集计算;某些线性或递归形式如果 kernel 不友好,吞吐可能不如优化良好的 FlashAttention。
这也是现代架构论文越来越强调 hardware-aware design 的原因。一个新模型要成为通用底座,必须在真实硬件上高效训练和推理。
Transformer 之所以难以替代,一部分原因正是它已经被硬件和软件生态深度优化。
六、和 Mamba/SSM 的关系
Mamba 属于状态空间路线,RWKV 和 RetNet也强调状态和递归推理,线性注意力则从 attention 公式入手。它们不是同一种模型,但都在寻找一种比 full attention 更便宜的历史建模方式。
未来可能出现更多混合结构:某些层用 attention 做精确检索,某些层用状态机制处理长程背景,某些层用 MoE 扩大容量。
后 Transformer 的核心不是消灭 attention,而是让模型不再事事依赖 full attention。
七、关键概念回顾
- 线性注意力:改写 attention 计算,避免显式二次矩阵。
- RWKV:结合 RNN 推理状态和 Transformer 训练经验的语言模型路线。
- RetNet:使用 retention 机制统一 parallel、recurrent、chunkwise 计算。
- recurrent inference:推理时用状态逐步更新,而不是保存完整 KV Cache。
- 硬件友好性:理论复杂度能否转化为真实吞吐。
八、常见误解
8.1 “所有线性时间模型都一样”
不一样。线性注意力、SSM、RWKV、RetNet 的数学形式和工程路径都不同。
8.2 “复杂度低就一定更快”
不一定。真实速度还取决于 kernel、内存访问、并行度和硬件支持。
8.3 “这些路线已经证明 Transformer 过时”
还不能。它们展示了重要方向,但通用质量和生态仍需长期验证。
九、下一步
各种后 Transformer 路线已经展开。最后一篇回到大局:未来是某个架构替代 Transformer,还是 attention、SSM、MoE、检索和工具共同组成混合系统?
十、参考文献
- Katharopoulos, A. et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.
- Choromanski, K. et al. “Rethinking Attention with Performers.” ICLR 2021.
- Peng, B. et al. “RWKV: Reinventing RNNs for the Transformer Era.” EMNLP Findings 2023.
- Sun, Y. et al. “Retentive Network: A Successor to Transformer for Large Language Models.” arXiv:2307.08621, 2023.
← 上一篇:56|状态空间模型 | 下一篇:58|后 Transformer 时代 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】58|后 Transformer 时代:架构会消失还是会进化
后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer,更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线,解释为什么 Transformer 很难突然消失,也为什么它不可能原样解决所有问题。
【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本
大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字,这不是随机 bug,而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发,解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染,并给出从架构到运行时的多层防线。
【Transformer 与注意力机制】系列总览
从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。
【Transformer 与注意力机制】01|为什么要从这里开始
这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。