post-transformer 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】58｜后 Transformer 时代：架构会消失还是会进化

2026-04-15 | transformer | #transformer #post-transformer #architecture #llm #future

后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer，更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线，解释为什么 Transformer 很难突然消失，也为什么它不可能原样解决所有问题。

【Transformer 与注意力机制】57｜RWKV / RetNet / 线性注意力：各种降低复杂度的探索

2026-04-15 | transformer | #transformer #rwkv #retnet #linear-attention #post-transformer

后 Transformer 路线不是一条路。线性注意力试图改写 softmax attention，RWKV 把 RNN 推理形态和 Transformer 训练经验结合，RetNet 在 parallel、recurrent、chunkwise 三种模式之间建立 retention 机制。本文比较这些路线如何降低长序列成本，以及它们为什么仍要面对质量、硬件和训练稳定性的考验。