土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】57|RWKV / RetNet / 线性注意力:各种降低复杂度的探索

文章导航

分类入口
transformer
标签入口
#transformer#rwkv#retnet#linear-attention#post-transformer

目录

后 Transformer 路线不是一条单行道。除了 56|Mamba/S4 代表的状态空间模型,还有线性注意力、RWKV、RetNet 等探索。它们目标相似:降低 full attention 的长序列成本。但方法不同,代价也不同。

讨论这些模型时要避免把所有“线性时间模型”混成一类。线性注意力改写 attention 公式,RWKV 更接近 RNN 化语言模型,RetNet 提出 retention 机制并支持多种计算模式。它们都在靠近同一个目标:既要高效处理长序列,又要保留 Transformer 的质量和训练便利性。

本篇能让你学会三件事:

  1. 线性注意力和标准 softmax attention 的差异;
  2. RWKV、RetNet 各自试图解决什么;
  3. 为什么理论复杂度低不等于真实替代。

一、线性注意力

标准 attention 的问题来自 \(QK^T\) 的二次关系。线性注意力试图把 softmax attention 改写成可结合的形式,让计算可以按序列线性累积。

一种直觉是使用特征映射 \(\phi\),把 attention 近似成:

\[ \phi(Q)(\phi(K)^T V) \]

这样可以先累积 \(\phi(K)^T V\),再和 query 交互,避免显式构造 \(n \times n\) 矩阵。

Performer、Linear Transformer 等工作都沿着这个方向探索。难点在于:softmax attention 的表达能力和数值性质不容易无损替代,近似带来的质量损失需要在真实任务中验证。


二、RWKV:RNN 推理形态

RWKV 试图结合 RNN 和 Transformer 的优点。它在推理时像 RNN 一样维护状态,避免保存全部历史;训练时又尽量利用并行化经验,让大规模语言模型训练可行。

RWKV 的吸引力在于部署:如果推理状态固定,长上下文成本会比 KV Cache 更可控。它对流式生成很自然。

挑战同样明显。RNN 式状态要压缩历史,如何保留复杂上下文信息?如何在大规模任务上匹配 Transformer?这些都需要实证回答。


三、RetNet:retention 机制

RetNet 提出 retention 机制,试图在三种模式之间统一:训练时 parallel,推理时 recurrent,长序列时 chunkwise。它的目标是既能并行训练,又能高效推理。

retention 可以理解为一种带衰减和状态累积的序列机制。它不像 full attention 那样保留所有 pairwise 关系,而是通过状态和分块处理降低成本。

RetNet 的意义在于,它明确把训练、推理和长序列三种计算形态放在同一个设计目标下。对于真实系统,这比单看理论复杂度更重要。


四、低复杂度的代价

降低复杂度通常意味着引入归纳偏置或近似。线性注意力改变 softmax 形式;RNN/SSM 路线压缩历史;RetNet 使用 retention 状态。每种方法都要回答:丢掉的 pairwise 显式访问,会不会伤害任务?

某些任务只需要局部或平滑长程依赖,低复杂度模型可能非常合适。另一些任务需要精确检索远处细节,full attention 或外部检索可能更稳。

所以架构选择要和任务、数据、硬件一起看。没有单一复杂度表能决定胜负。


五、硬件友好性

理论上 \(O(n)\) 不代表实际更快。GPU 喜欢大块密集计算;某些线性或递归形式如果 kernel 不友好,吞吐可能不如优化良好的 FlashAttention。

这也是现代架构论文越来越强调 hardware-aware design 的原因。一个新模型要成为通用底座,必须在真实硬件上高效训练和推理。

Transformer 之所以难以替代,一部分原因正是它已经被硬件和软件生态深度优化。


六、和 Mamba/SSM 的关系

Mamba 属于状态空间路线,RWKV 和 RetNet也强调状态和递归推理,线性注意力则从 attention 公式入手。它们不是同一种模型,但都在寻找一种比 full attention 更便宜的历史建模方式。

未来可能出现更多混合结构:某些层用 attention 做精确检索,某些层用状态机制处理长程背景,某些层用 MoE 扩大容量。

后 Transformer 的核心不是消灭 attention,而是让模型不再事事依赖 full attention。


七、关键概念回顾


八、常见误解

8.1 “所有线性时间模型都一样”

不一样。线性注意力、SSM、RWKV、RetNet 的数学形式和工程路径都不同。

8.2 “复杂度低就一定更快”

不一定。真实速度还取决于 kernel、内存访问、并行度和硬件支持。

8.3 “这些路线已经证明 Transformer 过时”

还不能。它们展示了重要方向,但通用质量和生态仍需长期验证。


九、下一步

各种后 Transformer 路线已经展开。最后一篇回到大局:未来是某个架构替代 Transformer,还是 attention、SSM、MoE、检索和工具共同组成混合系统?


十、参考文献

  1. Katharopoulos, A. et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.
  2. Choromanski, K. et al. “Rethinking Attention with Performers.” ICLR 2021.
  3. Peng, B. et al. “RWKV: Reinventing RNNs for the Transformer Era.” EMNLP Findings 2023.
  4. Sun, Y. et al. “Retentive Network: A Successor to Transformer for Large Language Models.” arXiv:2307.08621, 2023.

← 上一篇:56|状态空间模型 | 下一篇:58|后 Transformer 时代

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .