土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only

文章导航

分类入口
transformer
标签入口
#transformer#encoder-only#encoder-decoder#decoder-only#llm

目录

BERT、T5、GPT 都叫 Transformer,但它们不是同一种程序。BERT 读完整输入,给出双向表示;T5 先编码输入,再生成输出;GPT 只看前缀,不断预测下一个 token。三者的差异不是命名习惯,而是信息流方向和任务接口的差异。

如果只看今天的通用大模型,Decoder-only 几乎成了默认答案。但这个结果不是因为 Encoder-only 或 Encoder-Decoder “失败”,而是因为通用生成助手把任务接口改写成了 prompt-to-completion:输入一段上下文,模型继续生成一段文本。

本篇能让你学会三件事:

  1. 三类 Transformer 的信息流和任务形态有什么根本差别;
  2. Decoder-only 为什么更容易吃下互联网文本并 scale;
  3. 为什么 Encoder-only 和 Encoder-Decoder 仍然在检索、分类、翻译、多模态中有价值。

一、Encoder-only:双向理解

Encoder-only 的代表是 BERT。它没有 causal mask,每个 token 都能看见左右上下文。这样的信息流非常适合理解完整输入:文本分类、句子匹配、命名实体识别、抽取式问答、embedding、rerank。

它的优势是表示质量。给定一段文本,模型可以充分利用全局信息,为每个 token 和整段文本生成上下文表示。缺点是它不自然地产生任意长度输出。你可以给它加分类头、span 头、序列标注头,但它不是天生用来长篇生成的。

所以 Encoder-only 更像“读者”和“编码器”,而不是“作者”。在搜索、推荐、审核、实体识别等系统里,它仍然常常比大型生成模型更便宜、更稳定、更适合部署。


二、Encoder-Decoder:条件生成

Encoder-Decoder 的代表是原始 Transformer 和 T5。Encoder 读取完整输入,Decoder 在 cross-attention 条件下生成目标序列。这是机器翻译、摘要、改写和许多 Seq2Seq 任务的自然形态。

它的优势是输入和输出边界清晰。源语言和目标语言可以不同,输入文档和摘要可以长度差异很大,问题和答案也可以分离。Encoder 专心理解条件,Decoder 专心生成目标。

它的代价是系统复杂度更高。推理时既要处理 Encoder 输出,又要做 Decoder 自回归生成;服务系统和缓存策略也不如纯 Decoder-only 简洁。对通用聊天助手来说,把所有上下文放进一个自回归序列往往更直接。


三、Decoder-only:自回归生成

Decoder-only 的代表是 GPT。它使用 causal mask,每个 token 只能看过去。训练目标通常是 next-token prediction:给定前文,预测下一个 token。

这个目标非常简单,却极其通用。书、网页、代码、对话、论文都可以组织成 token 序列。模型不用为每个任务设计标签,只要不断学习文本分布。规模扩大后,任务说明、示例和约束都可以写进 prompt,模型继续生成答案。

Decoder-only 的另一项优势是推理系统围绕 KV Cache 优化很自然。历史 token 的 K/V 可以缓存,新 token 增量生成。虽然自回归串行性仍然存在,但整个 serving 生态已经围绕这条路径高度优化。


四、训练目标决定接口

三条路线的差异,最终会落到训练目标和使用接口上。

BERT 的 MLM 让模型擅长补洞和理解完整上下文;T5 的 span corruption 让模型擅长条件生成;GPT 的 next-token prediction 让模型擅长续写和生成。它们都能迁移到很多任务,但最自然的用法不同。

当任务被写成“请根据下面内容回答问题”时,Decoder-only 很顺。当任务是“给这两段文本打一个相关性分数”时,Encoder-only 可能更直接。当任务是“把一篇文章压缩成摘要”时,Encoder-Decoder 仍然很自然。

路线之争本质上不是架构名词之争,而是任务接口之争。


五、为什么大模型时代偏向 Decoder-only

第一,数据获取简单。互联网文本本来就是序列,next-token prediction 可以直接利用它。第二,接口统一。分类、问答、摘要、写代码、工具调用都可以写成生成任务。第三,scaling 路径清晰。语言建模 loss 和模型规模之间的关系更容易做大规模实验。

第四,产品形态匹配。ChatGPT 这类产品就是对话续写。系统消息、用户消息、工具返回、模型回复都能被组织成同一个 token 序列。Decoder-only 在这种格式下非常顺。

第五,工程生态成熟。KV Cache、连续 batching、量化、speculative decoding、推理并行都围绕 Decoder-only 快速发展。生态一旦形成,路线优势会被进一步放大。


六、另外两条路线没有消失

Encoder-only 在 embedding、rerank、分类、检索召回、文本匹配中仍然强。很多 RAG 系统前半段依赖的不是生成模型,而是编码模型和排序模型。

Encoder-Decoder 在翻译、摘要、结构化条件生成、多模态编码到文本生成中仍然有意义。某些任务天然有“源输入”和“目标输出”的边界,强行拼成单段自回归序列不一定更好。

所以更准确的判断是:Decoder-only 赢得了通用生成助手这条主线,而不是消灭了所有 Transformer 形态。


七、关键概念回顾


八、常见误解

8.1 “Decoder-only 在所有任务上都最好”

不成立。生成式接口通用,不等于每个任务都最便宜、最准或最低延迟。

8.2 “Encoder-only 已经过时”

Encoder 模型在检索、分类、匹配、重排里仍然常用。它们通常更小、更快、更可控。

8.3 “T5 路线失败了”

T5 的统一 Text-to-Text 框架仍然重要。只是通用聊天助手的产品形态更适配 Decoder-only。


九、下一步

三条路线都要面对同一个基础问题:Transformer 没有天然顺序感。下一篇进入位置编码演进,解释 Sinusoidal、Learned、RoPE、ALiBi 如何让模型理解 token 的位置与距离。


十、参考文献

  1. Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017.
  2. Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL 2019.
  3. Raffel, C. et al. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” JMLR 2020.
  4. Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020.

← 上一篇:39|T5 | 下一篇:41|位置编码演进

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】系列总览

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

2026-04-15 · transformer

【Transformer 与注意力机制】01|为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。


By .