t5 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。

【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事

预训练不只是“拿海量文本先训一下”这么笼统,而是先决定模型到底要预测什么。本文把三条主线拆开:GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的序列到序列去噪。它们分别擅长什么、牺牲什么,为什么最后大模型主航道几乎都走向了 decoder-only 的 next-token prediction。