【Transformer 与注意力机制】57｜RWKV / RetNet / 线性注意力：各种降低复杂度的探索

后 Transformer 路线不是一条单行道。除了 56｜Mamba/S4 代表的状态空间模型，还有线性注意力、RWKV、RetNet 等探索。它们目标相似：降低 full attention 的长序列成本。但方法不同，代价也不同。

讨论这些模型时要避免把所有“线性时间模型”混成一类。线性注意力改写 attention 公式，RWKV 更接近 RNN 化语言模型，RetNet 提出 retention 机制并支持多种计算模式。它们都在靠近同一个目标：既要高效处理长序列，又要保留 Transformer 的质量和训练便利性。

本篇能让你学会三件事：

线性注意力和标准 softmax attention 的差异；
RWKV、RetNet 各自试图解决什么；
为什么理论复杂度低不等于真实替代。

一、线性注意力

标准 attention 的问题来自 \(QK^T\) 的二次关系。线性注意力试图把 softmax attention 改写成可结合的形式，让计算可以按序列线性累积。

一种直觉是使用特征映射 \(\phi\)，把 attention 近似成：

\[ \phi(Q)(\phi(K)^T V) \]

这样可以先累积 \(\phi(K)^T V\)，再和 query 交互，避免显式构造 \(n \times n\) 矩阵。

Performer、Linear Transformer 等工作都沿着这个方向探索。难点在于：softmax attention 的表达能力和数值性质不容易无损替代，近似带来的质量损失需要在真实任务中验证。

二、RWKV：RNN 推理形态

RWKV 试图结合 RNN 和 Transformer 的优点。它在推理时像 RNN 一样维护状态，避免保存全部历史；训练时又尽量利用并行化经验，让大规模语言模型训练可行。

RWKV 的吸引力在于部署：如果推理状态固定，长上下文成本会比 KV Cache 更可控。它对流式生成很自然。

挑战同样明显。RNN 式状态要压缩历史，如何保留复杂上下文信息？如何在大规模任务上匹配 Transformer？这些都需要实证回答。

三、RetNet：retention 机制

RetNet 提出 retention 机制，试图在三种模式之间统一：训练时 parallel，推理时 recurrent，长序列时 chunkwise。它的目标是既能并行训练，又能高效推理。

retention 可以理解为一种带衰减和状态累积的序列机制。它不像 full attention 那样保留所有 pairwise 关系，而是通过状态和分块处理降低成本。

RetNet 的意义在于，它明确把训练、推理和长序列三种计算形态放在同一个设计目标下。对于真实系统，这比单看理论复杂度更重要。

四、低复杂度的代价

降低复杂度通常意味着引入归纳偏置或近似。线性注意力改变 softmax 形式；RNN/SSM 路线压缩历史；RetNet 使用 retention 状态。每种方法都要回答：丢掉的 pairwise 显式访问，会不会伤害任务？

某些任务只需要局部或平滑长程依赖，低复杂度模型可能非常合适。另一些任务需要精确检索远处细节，full attention 或外部检索可能更稳。

所以架构选择要和任务、数据、硬件一起看。没有单一复杂度表能决定胜负。

五、硬件友好性

理论上 \(O(n)\) 不代表实际更快。GPU 喜欢大块密集计算；某些线性或递归形式如果 kernel 不友好，吞吐可能不如优化良好的 FlashAttention。

这也是现代架构论文越来越强调 hardware-aware design 的原因。一个新模型要成为通用底座，必须在真实硬件上高效训练和推理。

Transformer 之所以难以替代，一部分原因正是它已经被硬件和软件生态深度优化。

六、和 Mamba/SSM 的关系

Mamba 属于状态空间路线，RWKV 和 RetNet也强调状态和递归推理，线性注意力则从 attention 公式入手。它们不是同一种模型，但都在寻找一种比 full attention 更便宜的历史建模方式。

未来可能出现更多混合结构：某些层用 attention 做精确检索，某些层用状态机制处理长程背景，某些层用 MoE 扩大容量。

后 Transformer 的核心不是消灭 attention，而是让模型不再事事依赖 full attention。

七、关键概念回顾

线性注意力：改写 attention 计算，避免显式二次矩阵。
RWKV：结合 RNN 推理状态和 Transformer 训练经验的语言模型路线。
RetNet：使用 retention 机制统一 parallel、recurrent、chunkwise 计算。
recurrent inference：推理时用状态逐步更新，而不是保存完整 KV Cache。
硬件友好性：理论复杂度能否转化为真实吞吐。

八、常见误解

8.1 “所有线性时间模型都一样”

不一样。线性注意力、SSM、RWKV、RetNet 的数学形式和工程路径都不同。

8.2 “复杂度低就一定更快”

不一定。真实速度还取决于 kernel、内存访问、并行度和硬件支持。

8.3 “这些路线已经证明 Transformer 过时”

还不能。它们展示了重要方向，但通用质量和生态仍需长期验证。

九、下一步

各种后 Transformer 路线已经展开。最后一篇回到大局：未来是某个架构替代 Transformer，还是 attention、SSM、MoE、检索和工具共同组成混合系统？

十、参考文献

Katharopoulos, A. et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.
Choromanski, K. et al. “Rethinking Attention with Performers.” ICLR 2021.
Peng, B. et al. “RWKV: Reinventing RNNs for the Transformer Era.” EMNLP Findings 2023.
Sun, Y. et al. “Retentive Network: A Successor to Transformer for Large Language Models.” arXiv:2307.08621, 2023.

← 上一篇：56｜状态空间模型　|　下一篇：58｜后 Transformer 时代 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer