土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

文章导航

分类入口
transformer
标签入口
#transformer#t5#text-to-text#encoder-decoder#span-corruption

目录

37|BERT 代表 Encoder-only 路线,38|GPT 代表 Decoder-only 路线。T5 站在它们中间:它保留 Encoder-Decoder 结构,却把几乎所有 NLP 任务都改写成同一种形式——文本输入,文本输出。

这件事的价值不只是接口好看。T5 的原论文标题是 “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”。关键词不是某个单独技巧,而是 unified。它把模型结构、预训练目标、数据集、任务格式和消融实验放进同一个框架里,让很多过去难以比较的选择变得可以系统讨论。

本篇能让你学会三件事:

  1. Text-to-Text 为什么能统一分类、翻译、摘要和问答;
  2. T5 的 span corruption 和 BERT 的 MLM、GPT 的 next-token prediction 有什么差异;
  3. 为什么 T5 很重要,但通用大模型时代最终更偏向 Decoder-only。

一、Text-to-Text 的核心思想

T5 最著名的设计,是把所有任务都变成:

输入文本 -> 输出文本

翻译任务可以写成:

translate English to German: That is good.

输出就是德语句子。情感分类也可以写成:

sst2 sentence: This movie is surprisingly good.

输出不是一个分类 head 的 logits,而是文本标签,比如 positive。摘要、问答、自然语言推断也都能用类似方式表达。

这个统一接口的好处是,模型不需要为每种任务改变输出层。所有任务都被组织成条件生成:给定输入序列,生成目标序列。训练、评估和迁移都可以在同一套框架里完成。


二、为什么是 Encoder-Decoder

T5 使用标准 Encoder-Decoder Transformer。Encoder 读取完整输入,Decoder 自回归生成输出。这和机器翻译的经典结构一致:源序列和目标序列可以长度不同、语言不同、格式不同。

如果只用 Encoder-only,模型很适合理解输入,却不自然地产生任意长度输出。如果只用 Decoder-only,也能把输入和输出拼在一起做生成,但输入理解和输出生成共享同一条自回归序列,条件建模的边界不如 Encoder-Decoder 清晰。

T5 的选择体现了它的目标:做一个通用的 sequence-to-sequence 迁移学习框架。输入是什么、输出是什么,都交给文本格式描述。Encoder 专心编码条件,Decoder 专心生成目标。


三、任务前缀不是装饰

T5 常在输入前加任务前缀,比如 translate English to German:summarize:。这些前缀不是给人看的注释,而是模型输入的一部分。它告诉模型当前文本应该按哪种任务解释。

这和后来的 prompt 思想有明显连续性。任务不再由外部代码或专用 head 指定,而是写进文本上下文。不同的是,T5 的 prompt 更像受控任务标签;GPT 后来的 prompt 更开放,可以包含指令、示例、约束和对话上下文。

统一格式还有一个工程好处:多任务训练时,不同数据集可以混在一起。只要每条样本都写成输入文本和目标文本,训练过程就不需要为每个任务单独改模型结构。


四、span corruption 在学什么

T5 的预训练目标通常被称为 span corruption。它不是像 BERT 那样随机 mask 单个 token,而是把连续片段替换成 sentinel token,然后让 Decoder 生成被删掉的片段。

直觉上,输入类似:

The <extra_id_0> walks in the <extra_id_1>.

目标输出类似:

<extra_id_0> cat <extra_id_1> garden

这个目标同时利用双向上下文和生成式输出。Encoder 可以看完整被破坏的输入,Decoder 需要生成缺失片段。这让它和 BERT、GPT 都不同:BERT 是补洞式理解,GPT 是从左到右续写,T5 是条件生成式重建。


五、C4 与系统化消融

T5 论文的重要性还来自 C4(Colossal Clean Crawled Corpus)和大量消融实验。它不是只提出一个模型,然后给出几个榜单分数,而是系统比较了预训练目标、模型结构、数据规模、训练步数、多任务配比等选择。

C4 来自 Common Crawl 的清洗版本,代表了大规模网页语料工程的一条早期路线。后来的 35|数据工程 讲过,网页不是天然训练数据,必须过滤、清洗、去重和治理。T5/C4 把这件事推到了主流视野里。

从写作主线看,T5 像一座桥:它连接 BERT 的预训练迁移、GPT 的文本生成接口,也连接后来的数据工程和 instruction tuning。


六、T5 的优势和局限

T5 的优势是统一。分类、摘要、翻译、问答都变成同一类训练样本,模型输出也是同一种文本序列。这让多任务学习和迁移学习更整洁。

但统一也有成本。Encoder-Decoder 推理通常比纯 Decoder-only 更复杂,服务系统也更难围绕单一自回归前缀优化。对于通用助手类任务,Decoder-only 的 prompt-to-completion 接口更自然:输入对话,继续生成回复。

所以 T5 没有被历史淘汰。它证明了 Text-to-Text 的强大;只是当任务中心从“各种 NLP benchmark”转向“通用生成助手”时,Decoder-only 路线获得了更大的生态优势。


七、关键概念回顾


八、常见误解

8.1 “T5 就是 GPT 加了 Encoder”

不准确。T5 的训练目标、任务格式和迁移学习框架都和 GPT 路线不同。它不是 GPT 的小改,而是 Seq2Seq 统一框架。

8.2 “Text-to-Text 说明所有任务都应该生成”

Text-to-Text 是统一接口,不是所有场景的最优部署方式。低延迟分类、检索和排序任务仍然可能更适合 Encoder-only 模型。

8.3 “T5 不如 GPT 流行,所以不重要”

T5 的重要性在于方法论:统一任务格式、系统消融、大规模清洗语料。这些思想仍然影响后来的模型训练。


九、下一步

BERT、GPT、T5 三条路线已经摆在桌面上。下一篇要横向比较:Encoder-only、Encoder-Decoder、Decoder-only 到底分别赢在哪里,为什么今天的大模型几乎都走向 Decoder-only。


十、参考文献

  1. Raffel, C. et al. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” JMLR 2020.
  2. Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL 2019.
  3. Radford, A. et al. “Improving Language Understanding by Generative Pre-Training.” OpenAI, 2018.
  4. Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017.

← 上一篇:38|GPT 系列 | 下一篇:40|三大路线之争

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-06-09 · transformer

【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字,这不是随机 bug,而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发,解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染,并给出从架构到运行时的多层防线。


By .