【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事
这篇文章只比较文本模型里最重要的三类预训练目标:GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义,而是看清它们各自优化什么接口、为什么迁移方式不同,以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
这篇文章只比较文本模型里最重要的三类预训练目标:GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义,而是看清它们各自优化什么接口、为什么迁移方式不同,以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。