如果说 37|BERT 代表的是“读完整段文本,然后给出理解表示”的路线,那么 GPT 代表的就是另一种更朴素、也更野心勃勃的路线:给定前文,预测下一个 token。
这个目标看起来简单到有点过分。它不像机器翻译那样有源句和目标句,不像分类那样有明确标签,也不像抽取式问答那样在文章里标答案 span。它只是反复问同一个问题:下一个 token 应该是什么?然而 GPT 系列最重要的历史经验恰恰是:当模型、数据、算力和训练稳定性都足够时,这个简单目标可以吸收大量语言、知识、推理和任务格式。
GPT 的成功不是突然出现的。从 GPT-1 的“生成式预训练 + 下游微调”,到 GPT-2 的 zero-shot 苗头,到 GPT-3 的 in-context learning,再到 InstructGPT / ChatGPT 把“会续写”变成“会听话”,这条线真正成熟的是一整套范式:Decoder-only Transformer + 自回归预训练 + scale + prompt 接口 + instruction alignment。
本篇能让你学会三件事:
- GPT-1、GPT-2、GPT-3、InstructGPT、GPT-4 各自改变了什么;
- 为什么 Decoder-only 路线最终成为大语言模型时代的主流;
- 为什么不能把 GPT 的能力简单归结为“模型更大”。
一、GPT-1:生成式预训练加下游微调
GPT-1 的全名是 Generative Pre-Training。它的核心思路和 BERT 有相似之处:先在大规模文本上预训练,再迁移到下游任务。但它选择的预训练目标不是 MLM,而是标准自回归语言模型:给定前面的 token,预测下一个 token。
从结构上看,GPT-1 使用的是 Transformer Decoder 的堆叠,但去掉了 Encoder-Decoder cross-attention,只保留 masked self-attention 和前馈网络。每个位置只能看见自己之前的位置。这就是 Decoder-only 的基本形态。
GPT-1 仍然很依赖下游 fine-tuning。它证明了生成式预训练能为自然语言理解任务提供有用表示,但当时还没有把“直接用 prompt 解决任务”变成主流。换句话说,GPT-1 已经选中了后来的架构方向,但任务接口还没有完全变成后来熟悉的自然语言提示。
它的历史意义在于:自回归语言模型不只是会生成文本,也可以学到可迁移的语言表示。这个判断后来被大规模放大。
二、GPT-2:zero-shot 的苗头
GPT-2 的标题很有意思:“Language Models are Unsupervised Multitask Learners”。这句话背后的主张是:如果语言模型在足够多样的文本上训练,它可能通过纯语言建模学到许多任务格式,而不必为每个任务单独 fine-tune。
GPT-2 使用 WebText 这类从互联网文本构造的数据集,并显著扩大模型规模。更重要的是,它把任务逐渐改写成 prompt。比如翻译可以写成:
Translate English to French:
English: The cat is on the mat.
French:
模型接着生成法语句子。这个过程并没有显式训练“翻译分类器”,而是把任务描述嵌入文本上下文,让语言模型继续补全。
GPT-2 时代的 zero-shot 还不稳定,也远没有后来 GPT-3 那么有说服力。但它提出了一个关键方向:语言模型本身可以成为任务接口。这和 BERT 的 fine-tuning 范式非常不同。BERT 通常为任务加头;GPT 则把任务写进上下文,让模型继续生成答案。
三、GPT-3:in-context learning 成为中心现象
GPT-3 真正让 GPT 路线变成行业中心。Brown 等人的 “Language Models are Few-Shot Learners” 不是只展示一个更大的模型,而是展示了一种新的使用方式:不更新参数,只在上下文里给任务说明和少量示例,模型就能完成任务。
这就是 in-context learning。它看起来像学习,但参数没有变化;变化的是上下文。用户给出几个输入输出例子,模型在当前 context 内推断任务模式,然后继续生成目标答案。
这件事对模型接口的影响非常大。过去做一个任务,常见流程是收集标注数据、训练或 fine-tune 模型、部署任务专用版本。GPT-3 展示了另一种可能:把任务描述、示例和约束写成 prompt,让同一个模型临时适应不同任务。
GPT-3 也把 34|Scaling Laws 的意义推到台前。它让行业看到,当 Decoder-only 语言模型继续放大,能力不是只体现在 perplexity 下降上,还会体现在 few-shot、生成、推理样式和任务泛化上。这里仍然不能把能力简单说成“参数多就行”,数据质量、训练 token、优化稳定性和评测方式都很重要;但 GPT-3 让“规模带来通用性”这个判断变得更有说服力。
四、从 GPT-3 到 InstructGPT:会续写不等于会听话
GPT-3 仍然是语言模型。语言模型的目标是续写最可能的文本,而用户真正想要的是遵循指令、避免有害回答、承认不确定性、按照格式完成任务。这两者不一样。
比如用户问:
请解释什么是梯度裁剪。
一个纯续写模型可能给出解释,也可能补出一段网页、对话、问答格式,甚至模仿训练数据里的错误风格。它并没有被直接训练成“帮助用户完成请求”。
InstructGPT 的核心就是把 GPT-3 类模型对齐到人类偏好的指令遵循行为。Ouyang 等人的工作使用了三步流程:先用人工示范做 supervised fine-tuning,再训练 reward model,最后用强化学习优化模型输出,使其更符合人类偏好。
这和 32|指令微调、33|RLHF 直接相连。重要的是,InstructGPT 不是改变了 GPT 的基础架构,而是在自回归模型之上改变了行为分布。底座模型学会了续写,对齐阶段让它更像助手。
五、ChatGPT:产品形态改变技术感知
ChatGPT 的技术意义和产品意义交织在一起。对许多用户来说,第一次感到大语言模型“真的有用”,不是因为读了 GPT-3 论文,而是因为打开一个聊天框,输入自然语言问题,模型能在多轮对话里保持上下文、解释、改写、总结、写代码。
聊天接口改变了模型能力被感知的方式。prompt 不再像研究论文里的 few-shot 模板,而变成日常对话。系统指令、用户消息、助手回复、多轮上下文,共同构成新的交互格式。模型仍然在做 next-token prediction,但预测的对象已经是“一个有角色、有约束、有上下文的对话中的下一段回复”。
这也解释了为什么同样的底层语言模型,在不同对齐和产品包装下会呈现完全不同的体验。一个 raw base model 可能很会续写论文和网页;一个 chat model 则被训练成遵循指令、拒绝某些请求、在不确定时解释限制。
讨论 ChatGPT 时要区分公开论文、技术报告、产品发布和外界推测。很多细节并没有完整公开。可确认的是,GPT 路线从“语言模型”走向“助手模型”,中间靠的是指令数据、人类反馈、系统提示和安全策略,而不是单纯把参数继续做大。
六、GPT-4:公开信息能确认什么
GPT-4 的公开技术报告和 system card 透露了重要信息:它是一个大规模多模态模型,在许多专业和学术基准上表现强于 GPT-3.5,并在安全评估、红队测试、对齐和部署风险上做了系统描述。
但 GPT-4 的许多具体细节没有公开,包括参数量、训练数据细节、训练计算量和完整架构。因此严肃写作时不能把网络传言当事实。可以说 GPT-4 代表了 GPT 路线在规模、多模态、对齐和产品化上的进一步成熟;不能断言未经公开确认的 MoE 结构、参数数量或训练配方。
GPT-4 的历史意义不只是“更强”。它让大语言模型从聊天玩具进入严肃生产力系统:代码、法律、医学、教育、数据分析、办公自动化都开始围绕它重新设计工作流。同时,它也让幻觉、越狱、安全评估、偏见、版权、隐私等问题变得更现实。
从架构主线看,GPT-4 继续证明了 Decoder-only 自回归路线的可扩展性。但它也提醒我们,模型能力越强,对齐和治理成本越高。GPT 路线的成功不是只发生在 pretraining,它同时依赖 post-training 和部署系统。
七、为什么 Decoder-only 路线赢得大模型时代
Decoder-only 路线赢得大模型时代,第一原因是训练目标简单统一。next-token prediction 不需要人工标注,不需要为每个任务设计标签,只需要大规模文本序列。互联网、书籍、代码、论文、对话都可以被组织成“预测下一个 token”的训练数据。
第二原因是生成接口足够通用。分类可以生成标签,问答可以生成答案,摘要可以生成摘要,代码补全可以生成代码,工具调用可以生成结构化参数。只要任务能写成文本输入和文本输出,Decoder-only 模型就能用同一种方式处理。
第三原因是 scaling 行为清晰。语言建模 loss、参数量、数据量、计算量之间存在可观察的规模规律,这让资源投入更容易规划。虽然 scaling laws 不是万能公式,但它给了工程团队一个比拍脑袋更可靠的方向。
第四原因是推理系统可以围绕自回归结构优化。KV Cache、continuous batching、speculative decoding、量化、张量并行等工程手段,都围绕“逐 token 生成”的结构展开。它们并没有消除自回归的串行性,但让 Decoder-only 模型可以被大规模服务化。
当然,这并不说明 Encoder-only 没价值。BERT 类模型在理解、检索、重排、分类、嵌入等场景仍然重要。只是当目标变成通用助手和统一任务接口时,生成模型的优势更明显。
八、GPT 路线的代价
GPT 路线的第一个代价是推理延迟。自回归模型一次生成一个 token,后一个 token 依赖前一个 token。训练时可以并行处理整段序列,推理时却存在天然串行性。KV Cache 能避免重复计算历史 K/V,但不能让未来 token 提前出现。
第二个代价是长上下文成本。上下文越长,attention 和 KV Cache 的成本越高。FlashAttention、PagedAttention、GQA、滑动窗口和压缩 cache 都是在缓解这个问题,但没有让它完全消失。
第三个代价是幻觉。next-token prediction 学的是文本分布,不是事实数据库的一致查询。模型可以生成语法流畅但事实错误的内容。检索增强、工具调用、引用约束和后训练可以降低风险,但不能把语言模型变成天然可靠的数据库。
第四个代价是对齐成本。模型越通用,可能输出的行为空间越大。让它既有用、又诚实、又安全、又不僵硬,需要大量指令数据、偏好数据、安全评估和产品反馈。
所以 GPT 路线不是“完美架构”,而是在当前数据、硬件和产品需求下最成功的通用生成路线。它的代价会在后面的 FlashAttention、KV Cache 和 Transformer 局限中反复出现。
九、关键概念回顾
- Decoder-only Transformer:只使用带 causal mask 的 Transformer decoder 堆叠,不使用 encoder。
- next-token prediction:给定前文预测下一个 token 的自回归训练目标。
- zero-shot:不给任务示例或参数更新,直接通过任务描述完成任务。
- few-shot / in-context learning:在上下文中给少量示例,让模型临时推断任务模式。
- instruction tuning:用指令和答案数据把模型调成更会遵循请求的形式。
- RLHF:使用人类偏好训练 reward model,再优化模型输出行为。
- chat model:经过对话格式和对齐训练的语言模型,不等同于 raw base model。
十、常见误解
10.1 “GPT 就是 Transformer 换名字”
GPT 使用 Transformer,但它的关键是 Decoder-only 架构、自回归目标、规模扩展、prompt 接口和后训练范式的组合。只说“Transformer 换名字”会漏掉最重要的训练和使用方式。
10.2 “next-token prediction 太简单,所以不可能产生复杂能力”
训练目标简单,不代表学习到的结构简单。为了预测下一个 token,模型必须吸收语法、事实、风格、推理模式、代码结构和任务格式。复杂能力是否稳定出现取决于规模、数据和训练。
10.3 “GPT-4 的所有细节都已公开”
没有。公开材料能支持关于能力、评估、安全和部分产品行为的讨论,但不能支持未经确认的参数量、训练数据和完整架构断言。
10.4 “GPT 路线让 BERT 没用了”
不成立。生成式助手成为中心,不意味着 encoder 模型在检索、分类、匹配、嵌入和重排里失去价值。两条路线服务的任务形态不同。
十一、下一步
按系列顺序,后面会继续讲 T5、三大路线之争和位置编码演进。为了先抓住大模型时代最关键的工程瓶颈,我们接下来跳到一个高频主题:FlashAttention。它要回答的问题是,如果 attention 公式不变,为什么换一种计算方式就能显著更快、更省显存?
十二、参考文献
- Radford, A. et al. “Improving Language Understanding by Generative Pre-Training.” OpenAI, 2018. GPT-1 技术报告。
- Radford, A. et al. “Language Models are Unsupervised Multitask Learners.” OpenAI, 2019. GPT-2 技术报告。
- Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020. GPT-3 与 in-context learning 的代表论文。
- Ouyang, L. et al. “Training language models to follow instructions with human feedback.” NeurIPS 2022. InstructGPT 与 RLHF 的关键论文。
- OpenAI. “GPT-4 Technical Report.” arXiv:2303.08774, 2023. GPT-4 公开技术报告。
- OpenAI. “GPT-4 System Card.” 2023. GPT-4 安全评估与部署风险公开材料。
- Kaplan, J. et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361, 2020. 语言模型规模规律的重要来源。
- Hoffmann, J. et al. “Training Compute-Optimal Large Language Models.” NeurIPS 2022. Chinchilla scaling laws。
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。
【Transformer 与注意力机制】23|Decoder 详解:为什么它天生适合生成
把 Transformer decoder 拆开讲透:masked self-attention、cross-attention、FFN 三块子层如何串起来;训练时为什么能并行、推理时为什么必须串行;以及 decoder-only 为什么会成为 GPT 时代的主流路线。
【Transformer 与注意力机制】58|后 Transformer 时代:架构会消失还是会进化
后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer,更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线,解释为什么 Transformer 很难突然消失,也为什么它不可能原样解决所有问题。
【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事
预训练不只是“拿海量文本先训一下”这么笼统,而是先决定模型到底要预测什么。本文把三条主线拆开:GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的序列到序列去噪。它们分别擅长什么、牺牲什么,为什么最后大模型主航道几乎都走向了 decoder-only 的 next-token prediction。