从 01|为什么要从这里开始 到这里,我们一路从向量、点积、Q/K/V、self-attention、原始 Transformer,讲到 BERT、GPT、FlashAttention、KV Cache、可解释性和后 Transformer 架构。最后的问题是:Transformer 会消失吗?
更现实的答案不是“会”或“不会”,而是:Transformer 会进化。它不太可能被某个架构一夜之间完全替代,也不太可能原样解决未来所有问题。后 Transformer 时代更可能是混合系统时代。
本篇能让你学会三件事:
- 为什么 Transformer 的生态护城河很深;
- 为什么长上下文、记忆、低延迟和多模态会推动架构变化;
- 为什么未来更像混合系统,而不是单一模型结构统治一切。
一、为什么 Transformer 很难突然消失
Transformer 不只是论文里的公式。它已经变成完整生态:GPU kernel、训练框架、并行策略、checkpoint 格式、数据配方、微调方法、推理服务、量化工具、对齐流程都围绕它成熟。
一个新架构如果只在复杂度上更漂亮,还远远不够。它要在质量、训练稳定、硬件利用、生态兼容、多模态扩展、对齐和安全上同时接近或超过 Transformer。
这就是为什么许多“Transformer killer” 很难真正杀死 Transformer。架构竞争不是单点指标竞争,而是系统竞争。
二、为什么 Transformer 也不会原样解决一切
Transformer 的瓶颈同样清楚。full attention 长序列成本高,KV Cache 随上下文增长,自回归生成串行,长期记忆不等于长窗口,多模态和视频生成会进一步放大 token 数量。
工程优化能推远瓶颈。FlashAttention、PagedAttention、GQA、量化、speculative decoding 都很重要。但它们不能改变所有结构性限制。
未来模型需要更高效地表示、压缩、检索和更新信息。只靠更大的 full attention 窗口,很难无限扩展。
三、混合架构
更可能的未来是混合架构。attention 负责精确检索和复杂交互;SSM 或 RNN-like 模块负责长程状态;MoE 扩大参数容量;检索系统提供外部知识;工具调用处理计算和环境交互;外部记忆保存跨会话状态。
这种系统里,Transformer 仍然可能是核心模块,但不再独自承担所有责任。模型从“一个神经网络”变成“神经网络 + 检索 + 工具 + 记忆 + 调度”的系统。
这也解释了为什么架构边界会越来越模糊。真正的智能行为不只来自模型参数,还来自上下文组织、工具可用性、反馈回路和环境状态。
四、多模态与世界模型
文本只是世界的一种投影。图像、音频、视频、3D、传感器、动作都需要进入模型。ViT 和 DiT 说明视觉可以 token 化,但视频和交互环境会带来更长序列和更复杂状态。
如果未来模型要理解和预测世界,仅靠文本 token 远远不够。多模态表示、时空记忆、动作反馈和仿真环境都会变得重要。
Transformer 的通用 token 接口仍然有价值,但不同模态的结构差异也会迫使架构加入更多专门模块。
五、硬件反向塑造架构
架构不是在真空里演化的。显存容量、HBM 带宽、芯片互联、低精度计算、稀疏支持、片上 SRAM 大小,都会反过来决定哪些模型可行。
FlashAttention 的成功已经说明,硬件友好性可以改变模型实践。Mamba、RetNet、MoE 等路线也都必须面对真实硬件,而不是只在复杂度表格中获胜。
未来架构会越来越 hardware-aware。算法、系统和芯片的边界会继续变薄。
六、评估方式也会变化
早期 NLP 任务可以用静态 benchmark 比较。大模型时代,评估变得更复杂:多轮对话、工具调用、长上下文、引用可靠性、代码执行、安全拒答、个性化记忆,都不是单个准确率能概括。
如果评估方式改变,架构优化目标也会改变。一个模型在静态题库上强,不代表在长期交互系统中可靠。未来模型可能更重视可验证性、可恢复性、可控性和系统协作。
这也是后 Transformer 时代的重要信号:模型不再只是预测下一个 token,而要成为更大系统中的一个可调度组件。
七、本系列回看
注意力的核心从来不是神秘直觉,而是相似度加权求和。Q/K/V 把“我要找什么、我有什么、我要取什么”拆成可学习空间。Multi-head 让模型在多个子空间并行建立关系。Transformer 用残差、LayerNorm、FFN 和位置编码把这些模块堆成可训练架构。
后来的所有发展,都在围绕同一组问题扩展:如何训练更大模型,如何喂更好数据,如何更快推理,如何处理更长上下文,如何解释和控制行为,如何在多模态和外部工具中使用模型。
所以 Transformer 不是终点,而是一段非常成功的中间层抽象。它把序列建模推到统一 token 处理时代,也把新的瓶颈暴露得足够清楚。
八、关键概念回顾
- 后 Transformer:不是没有 Transformer,而是模型系统不再只依赖标准 full attention。
- 混合架构:attention、SSM、MoE、检索、工具、外部记忆共同组成系统。
- 硬件友好性:架构能否有效利用真实芯片。
- 长期记忆:跨上下文、跨会话保存和检索状态,不等于长窗口。
- 系统边界:模型能力来自参数、上下文、工具、检索和调度的组合。
九、常见误解
9.1 “后 Transformer 等于 Transformer 消失”
更可能是 Transformer 组件继续存在,但和其他模块混合。
9.2 “只要上下文足够长,就不需要记忆系统”
长上下文不是长期记忆。持久化、检索、更新和遗忘仍然需要系统设计。
9.3 “未来架构只由算法决定”
硬件、数据、产品形态和评估方式都会反向塑造架构。
十、结语
Transformer 的故事不是“一个架构统治一切”,而是一个抽象层如何把不同任务统一到 token、attention 和 scale 的框架里。下一阶段的核心问题仍然相同:信息如何被表示,如何被路由,如何被压缩,如何在需要时被可靠取回。
如果说本系列只能留下一个判断,那就是:理解 Transformer,不是为了崇拜它,而是为了看清它为什么成功、哪里昂贵、何时该用、何时该换,以及未来的新架构究竟在解决哪个具体瓶颈。
十一、参考文献
- Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017.
- Dao, T. et al. “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS 2022.
- Gu, A. and Dao, T. “Mamba: Linear-Time Sequence Modeling with Selective State Spaces.” arXiv:2312.00752, 2023.
- Sun, Y. et al. “Retentive Network: A Successor to Transformer for Large Language Models.” arXiv:2307.08621, 2023.
- Fedus, W. et al. “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.” JMLR 2022.
← 上一篇:57|RWKV / RetNet / 线性注意力 | 返回:系列总览 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。
【Transformer 与注意力机制】55|Transformer 的根本局限:为什么 O(n²) 是终极瓶颈
Transformer 的成功没有消除它的结构性代价。本文区分工程瓶颈和架构瓶颈,解释 O(n²) attention、KV Cache 线性增长、自回归串行性、长上下文与长期记忆的差异、位置外推和数据效率问题,并说明为什么 Mamba、RWKV、RetNet、线性注意力等路线都在试图绕开同一组限制。
【Transformer 与注意力机制】57|RWKV / RetNet / 线性注意力:各种降低复杂度的探索
后 Transformer 路线不是一条路。线性注意力试图改写 softmax attention,RWKV 把 RNN 推理形态和 Transformer 训练经验结合,RetNet 在 parallel、recurrent、chunkwise 三种模式之间建立 retention 机制。本文比较这些路线如何降低长序列成本,以及它们为什么仍要面对质量、硬件和训练稳定性的考验。