【Transformer 与注意力机制】40｜三大路线之争：为什么大模型几乎都是 Decoder-only

BERT、T5、GPT 都叫 Transformer，但它们不是同一种程序。BERT 读完整输入，给出双向表示；T5 先编码输入，再生成输出；GPT 只看前缀，不断预测下一个 token。三者的差异不是命名习惯，而是信息流方向和任务接口的差异。

如果只看今天的通用大模型，Decoder-only 几乎成了默认答案。但这个结果不是因为 Encoder-only 或 Encoder-Decoder “失败”，而是因为通用生成助手把任务接口改写成了 prompt-to-completion：输入一段上下文，模型继续生成一段文本。

本篇能让你学会三件事：

三类 Transformer 的信息流和任务形态有什么根本差别；
Decoder-only 为什么更容易吃下互联网文本并 scale；
为什么 Encoder-only 和 Encoder-Decoder 仍然在检索、分类、翻译、多模态中有价值。

一、Encoder-only：双向理解

Encoder-only 的代表是 BERT。它没有 causal mask，每个 token 都能看见左右上下文。这样的信息流非常适合理解完整输入：文本分类、句子匹配、命名实体识别、抽取式问答、embedding、rerank。

它的优势是表示质量。给定一段文本，模型可以充分利用全局信息，为每个 token 和整段文本生成上下文表示。缺点是它不自然地产生任意长度输出。你可以给它加分类头、span 头、序列标注头，但它不是天生用来长篇生成的。

所以 Encoder-only 更像“读者”和“编码器”，而不是“作者”。在搜索、推荐、审核、实体识别等系统里，它仍然常常比大型生成模型更便宜、更稳定、更适合部署。

二、Encoder-Decoder：条件生成

Encoder-Decoder 的代表是原始 Transformer 和 T5。Encoder 读取完整输入，Decoder 在 cross-attention 条件下生成目标序列。这是机器翻译、摘要、改写和许多 Seq2Seq 任务的自然形态。

它的优势是输入和输出边界清晰。源语言和目标语言可以不同，输入文档和摘要可以长度差异很大，问题和答案也可以分离。Encoder 专心理解条件，Decoder 专心生成目标。

它的代价是系统复杂度更高。推理时既要处理 Encoder 输出，又要做 Decoder 自回归生成；服务系统和缓存策略也不如纯 Decoder-only 简洁。对通用聊天助手来说，把所有上下文放进一个自回归序列往往更直接。

三、Decoder-only：自回归生成

Decoder-only 的代表是 GPT。它使用 causal mask，每个 token 只能看过去。训练目标通常是 next-token prediction：给定前文，预测下一个 token。

这个目标非常简单，却极其通用。书、网页、代码、对话、论文都可以组织成 token 序列。模型不用为每个任务设计标签，只要不断学习文本分布。规模扩大后，任务说明、示例和约束都可以写进 prompt，模型继续生成答案。

Decoder-only 的另一项优势是推理系统围绕 KV Cache 优化很自然。历史 token 的 K/V 可以缓存，新 token 增量生成。虽然自回归串行性仍然存在，但整个 serving 生态已经围绕这条路径高度优化。

四、训练目标决定接口

三条路线的差异，最终会落到训练目标和使用接口上。

BERT 的 MLM 让模型擅长补洞和理解完整上下文；T5 的 span corruption 让模型擅长条件生成；GPT 的 next-token prediction 让模型擅长续写和生成。它们都能迁移到很多任务，但最自然的用法不同。

当任务被写成“请根据下面内容回答问题”时，Decoder-only 很顺。当任务是“给这两段文本打一个相关性分数”时，Encoder-only 可能更直接。当任务是“把一篇文章压缩成摘要”时，Encoder-Decoder 仍然很自然。

路线之争本质上不是架构名词之争，而是任务接口之争。

五、为什么大模型时代偏向 Decoder-only

第一，数据获取简单。互联网文本本来就是序列，next-token prediction 可以直接利用它。第二，接口统一。分类、问答、摘要、写代码、工具调用都可以写成生成任务。第三，scaling 路径清晰。语言建模 loss 和模型规模之间的关系更容易做大规模实验。

第四，产品形态匹配。ChatGPT 这类产品就是对话续写。系统消息、用户消息、工具返回、模型回复都能被组织成同一个 token 序列。Decoder-only 在这种格式下非常顺。

第五，工程生态成熟。KV Cache、连续 batching、量化、speculative decoding、推理并行都围绕 Decoder-only 快速发展。生态一旦形成，路线优势会被进一步放大。

六、另外两条路线没有消失

Encoder-only 在 embedding、rerank、分类、检索召回、文本匹配中仍然强。很多 RAG 系统前半段依赖的不是生成模型，而是编码模型和排序模型。

Encoder-Decoder 在翻译、摘要、结构化条件生成、多模态编码到文本生成中仍然有意义。某些任务天然有“源输入”和“目标输出”的边界，强行拼成单段自回归序列不一定更好。

所以更准确的判断是：Decoder-only 赢得了通用生成助手这条主线，而不是消灭了所有 Transformer 形态。

七、关键概念回顾

Encoder-only：双向编码完整输入，适合理解与表示。
Encoder-Decoder：编码输入条件，自回归生成输出，适合 Seq2Seq。
Decoder-only：只看前缀预测下一个 token，适合通用生成。
任务接口：模型如何接收任务、如何输出结果，比架构标签更关键。
KV Cache：Decoder-only 推理生态的重要基础。

八、常见误解

8.1 “Decoder-only 在所有任务上都最好”

不成立。生成式接口通用，不等于每个任务都最便宜、最准或最低延迟。

8.2 “Encoder-only 已经过时”

Encoder 模型在检索、分类、匹配、重排里仍然常用。它们通常更小、更快、更可控。

8.3 “T5 路线失败了”

T5 的统一 Text-to-Text 框架仍然重要。只是通用聊天助手的产品形态更适配 Decoder-only。

九、下一步

三条路线都要面对同一个基础问题：Transformer 没有天然顺序感。下一篇进入位置编码演进，解释 Sinusoidal、Learned、RoPE、ALiBi 如何让模型理解 token 的位置与距离。

十、参考文献

Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017.
Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL 2019.
Raffel, C. et al. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” JMLR 2020.
Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020.

← 上一篇：39｜T5　|　下一篇：41｜位置编码演进 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer