土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】57|RWKV / RetNet / 线性注意力:各种降低复杂度的探索

文章导航

分类入口
transformer
标签入口
#transformer#rwkv#retnet#linear-attention#post-transformer

目录

后 Transformer 路线不是一条单行道。除了 56|Mamba/S4 代表的状态空间模型,还有线性注意力、RWKV、RetNet 等探索。它们目标相似:降低 full attention 的长序列成本。但方法不同,代价也不同。

讨论这些模型时要避免把所有“线性时间模型”混成一类。线性注意力改写 attention 公式,RWKV 更接近 RNN 化语言模型,RetNet 提出 retention 机制并支持多种计算模式。它们都在靠近同一个目标:既要高效处理长序列,又要保留 Transformer 的质量和训练便利性。

本篇能让你学会三件事:

  1. 线性注意力和标准 softmax attention 的差异;
  2. RWKV、RetNet 各自试图解决什么;
  3. 为什么理论复杂度低不等于真实替代。

一、线性注意力

标准 attention 的问题来自 \(QK^T\) 的二次关系。线性注意力试图把 softmax attention 改写成可结合的形式,让计算可以按序列线性累积。

一种直觉是使用特征映射 \(\phi\),把 attention 近似成:

\[ \phi(Q)(\phi(K)^T V) \]

这样可以先累积 \(\phi(K)^T V\),再和 query 交互,避免显式构造 \(n \times n\) 矩阵。

Performer、Linear Transformer 等工作都沿着这个方向探索。难点在于:softmax attention 的表达能力和数值性质不容易无损替代,近似带来的质量损失需要在真实任务中验证。


二、RWKV:RNN 推理形态

RWKV 试图结合 RNN 和 Transformer 的优点。它在推理时像 RNN 一样维护状态,避免保存全部历史;训练时又尽量利用并行化经验,让大规模语言模型训练可行。

RWKV 的吸引力在于部署:如果推理状态固定,长上下文成本会比 KV Cache 更可控。它对流式生成很自然。

挑战同样明显。RNN 式状态要压缩历史,如何保留复杂上下文信息?如何在大规模任务上匹配 Transformer?这些都需要实证回答。


三、RetNet:retention 机制

RetNet 提出 retention 机制,试图在三种模式之间统一:训练时 parallel,推理时 recurrent,长序列时 chunkwise。它的目标是既能并行训练,又能高效推理。

retention 可以理解为一种带衰减和状态累积的序列机制。它不像 full attention 那样保留所有 pairwise 关系,而是通过状态和分块处理降低成本。

RetNet 的意义在于,它明确把训练、推理和长序列三种计算形态放在同一个设计目标下。对于真实系统,这比单看理论复杂度更重要。


四、低复杂度的代价

降低复杂度通常意味着引入归纳偏置或近似。线性注意力改变 softmax 形式;RNN/SSM 路线压缩历史;RetNet 使用 retention 状态。每种方法都要回答:丢掉的 pairwise 显式访问,会不会伤害任务?

某些任务只需要局部或平滑长程依赖,低复杂度模型可能非常合适。另一些任务需要精确检索远处细节,full attention 或外部检索可能更稳。

所以架构选择要和任务、数据、硬件一起看。没有单一复杂度表能决定胜负。


五、硬件友好性

理论上 \(O(n)\) 不代表实际更快。GPU 喜欢大块密集计算;某些线性或递归形式如果 kernel 不友好,吞吐可能不如优化良好的 FlashAttention。

这也是现代架构论文越来越强调 hardware-aware design 的原因。一个新模型要成为通用底座,必须在真实硬件上高效训练和推理。

Transformer 之所以难以替代,一部分原因正是它已经被硬件和软件生态深度优化。


六、和 Mamba/SSM 的关系

Mamba 属于状态空间路线,RWKV 和 RetNet也强调状态和递归推理,线性注意力则从 attention 公式入手。它们不是同一种模型,但都在寻找一种比 full attention 更便宜的历史建模方式。

未来可能出现更多混合结构:某些层用 attention 做精确检索,某些层用状态机制处理长程背景,某些层用 MoE 扩大容量。

后 Transformer 的核心不是消灭 attention,而是让模型不再事事依赖 full attention。


七、关键概念回顾


八、常见误解

8.1 “所有线性时间模型都一样”

不一样。线性注意力、SSM、RWKV、RetNet 的数学形式和工程路径都不同。

8.2 “复杂度低就一定更快”

不一定。真实速度还取决于 kernel、内存访问、并行度和硬件支持。

8.3 “这些路线已经证明 Transformer 过时”

还不能。它们展示了重要方向,但通用质量和生态仍需长期验证。


九、下一步

各种后 Transformer 路线已经展开。最后一篇回到大局:未来是某个架构替代 Transformer,还是 attention、SSM、MoE、检索和工具共同组成混合系统?


十、参考文献

  1. Katharopoulos, A. et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.
  2. Choromanski, K. et al. “Rethinking Attention with Performers.” ICLR 2021.
  3. Peng, B. et al. “RWKV: Reinventing RNNs for the Transformer Era.” EMNLP Findings 2023.
  4. Sun, Y. et al. “Retentive Network: A Successor to Transformer for Large Language Models.” arXiv:2307.08621, 2023.

← 上一篇:56|状态空间模型 | 下一篇:58|后 Transformer 时代

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-06-09 · transformer

【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字,这不是随机 bug,而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发,解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染,并给出从架构到运行时的多层防线。

2026-04-15 · transformer

【Transformer 与注意力机制】系列总览

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

2026-04-15 · transformer

【Transformer 与注意力机制】01|为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。


By .