t5 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

2026-04-15 | transformer | #transformer #pretraining #gpt #bert #t5

这篇文章只比较文本模型里最重要的三类预训练目标：GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义，而是看清它们各自优化什么接口、为什么迁移方式不同，以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。

【Transformer 与注意力机制】39｜T5：把所有 NLP 任务统一成 Text-to-Text

2026-04-15 | transformer | #transformer #t5 #text-to-text #encoder-decoder #span-corruption

T5 的核心不是又发明了一种 Transformer，而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构，span corruption 和 BERT/GPT 的目标有什么差异，C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。