retnet 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】57|RWKV / RetNet / 线性注意力:各种降低复杂度的探索

后 Transformer 路线不是一条路。线性注意力试图改写 softmax attention,RWKV 把 RNN 推理形态和 Transformer 训练经验结合,RetNet 在 parallel、recurrent、chunkwise 三种模式之间建立 retention 机制。本文比较这些路线如何降低长序列成本,以及它们为什么仍要面对质量、硬件和训练稳定性的考验。