【Transformer 与注意力机制】38｜GPT 系列：从 GPT-1 到 GPT-4 的路线演进

如果说 37｜BERT 代表的是“读完整段文本，然后给出理解表示”的路线，那么 GPT 代表的就是另一种更朴素、也更野心勃勃的路线：给定前文，预测下一个 token。

这个目标看起来简单到有点过分。它不像机器翻译那样有源句和目标句，不像分类那样有明确标签，也不像抽取式问答那样在文章里标答案 span。它只是反复问同一个问题：下一个 token 应该是什么？然而 GPT 系列最重要的历史经验恰恰是：当模型、数据、算力和训练稳定性都足够时，这个简单目标可以吸收大量语言、知识、推理和任务格式。

GPT 的成功不是突然出现的。从 GPT-1 的“生成式预训练 + 下游微调”，到 GPT-2 的 zero-shot 苗头，到 GPT-3 的 in-context learning，再到 InstructGPT / ChatGPT 把“会续写”变成“会听话”，这条线真正成熟的是一整套范式：Decoder-only Transformer + 自回归预训练 + scale + prompt 接口 + instruction alignment。

本篇能让你学会三件事：

GPT-1、GPT-2、GPT-3、InstructGPT、GPT-4 各自改变了什么；
为什么 Decoder-only 路线最终成为大语言模型时代的主流；
为什么不能把 GPT 的能力简单归结为“模型更大”。

一、GPT-1：生成式预训练加下游微调

GPT-1 的全名是 Generative Pre-Training。它的核心思路和 BERT 有相似之处：先在大规模文本上预训练，再迁移到下游任务。但它选择的预训练目标不是 MLM，而是标准自回归语言模型：给定前面的 token，预测下一个 token。

从结构上看，GPT-1 使用的是 Transformer Decoder 的堆叠，但去掉了 Encoder-Decoder cross-attention，只保留 masked self-attention 和前馈网络。每个位置只能看见自己之前的位置。这就是 Decoder-only 的基本形态。

GPT-1 仍然很依赖下游 fine-tuning。它证明了生成式预训练能为自然语言理解任务提供有用表示，但当时还没有把“直接用 prompt 解决任务”变成主流。换句话说，GPT-1 已经选中了后来的架构方向，但任务接口还没有完全变成后来熟悉的自然语言提示。

它的历史意义在于：自回归语言模型不只是会生成文本，也可以学到可迁移的语言表示。这个判断后来被大规模放大。

二、GPT-2：zero-shot 的苗头

GPT-2 的标题很有意思：“Language Models are Unsupervised Multitask Learners”。这句话背后的主张是：如果语言模型在足够多样的文本上训练，它可能通过纯语言建模学到许多任务格式，而不必为每个任务单独 fine-tune。

GPT-2 使用 WebText 这类从互联网文本构造的数据集，并显著扩大模型规模。更重要的是，它把任务逐渐改写成 prompt。比如翻译可以写成：

Translate English to French:
English: The cat is on the mat.
French:

模型接着生成法语句子。这个过程并没有显式训练“翻译分类器”，而是把任务描述嵌入文本上下文，让语言模型继续补全。

GPT-2 时代的 zero-shot 还不稳定，也远没有后来 GPT-3 那么有说服力。但它提出了一个关键方向：语言模型本身可以成为任务接口。这和 BERT 的 fine-tuning 范式非常不同。BERT 通常为任务加头；GPT 则把任务写进上下文，让模型继续生成答案。

三、GPT-3：in-context learning 成为中心现象

GPT-3 真正让 GPT 路线变成行业中心。Brown 等人的 “Language Models are Few-Shot Learners” 不是只展示一个更大的模型，而是展示了一种新的使用方式：不更新参数，只在上下文里给任务说明和少量示例，模型就能完成任务。

这就是 in-context learning。它看起来像学习，但参数没有变化；变化的是上下文。用户给出几个输入输出例子，模型在当前 context 内推断任务模式，然后继续生成目标答案。

这件事对模型接口的影响非常大。过去做一个任务，常见流程是收集标注数据、训练或 fine-tune 模型、部署任务专用版本。GPT-3 展示了另一种可能：把任务描述、示例和约束写成 prompt，让同一个模型临时适应不同任务。

GPT-3 也把 34｜Scaling Laws 的意义推到台前。它让行业看到，当 Decoder-only 语言模型继续放大，能力不是只体现在 perplexity 下降上，还会体现在 few-shot、生成、推理样式和任务泛化上。这里仍然不能把能力简单说成“参数多就行”，数据质量、训练 token、优化稳定性和评测方式都很重要；但 GPT-3 让“规模带来通用性”这个判断变得更有说服力。

四、从 GPT-3 到 InstructGPT：会续写不等于会听话

GPT-3 仍然是语言模型。语言模型的目标是续写最可能的文本，而用户真正想要的是遵循指令、避免有害回答、承认不确定性、按照格式完成任务。这两者不一样。

比如用户问：

请解释什么是梯度裁剪。

一个纯续写模型可能给出解释，也可能补出一段网页、对话、问答格式，甚至模仿训练数据里的错误风格。它并没有被直接训练成“帮助用户完成请求”。

InstructGPT 的核心就是把 GPT-3 类模型对齐到人类偏好的指令遵循行为。Ouyang 等人的工作使用了三步流程：先用人工示范做 supervised fine-tuning，再训练 reward model，最后用强化学习优化模型输出，使其更符合人类偏好。

这和 32｜指令微调、33｜RLHF 直接相连。重要的是，InstructGPT 不是改变了 GPT 的基础架构，而是在自回归模型之上改变了行为分布。底座模型学会了续写，对齐阶段让它更像助手。

五、ChatGPT：产品形态改变技术感知

ChatGPT 的技术意义和产品意义交织在一起。对许多用户来说，第一次感到大语言模型“真的有用”，不是因为读了 GPT-3 论文，而是因为打开一个聊天框，输入自然语言问题，模型能在多轮对话里保持上下文、解释、改写、总结、写代码。

聊天接口改变了模型能力被感知的方式。prompt 不再像研究论文里的 few-shot 模板，而变成日常对话。系统指令、用户消息、助手回复、多轮上下文，共同构成新的交互格式。模型仍然在做 next-token prediction，但预测的对象已经是“一个有角色、有约束、有上下文的对话中的下一段回复”。

这也解释了为什么同样的底层语言模型，在不同对齐和产品包装下会呈现完全不同的体验。一个 raw base model 可能很会续写论文和网页；一个 chat model 则被训练成遵循指令、拒绝某些请求、在不确定时解释限制。

讨论 ChatGPT 时要区分公开论文、技术报告、产品发布和外界推测。很多细节并没有完整公开。可确认的是，GPT 路线从“语言模型”走向“助手模型”，中间靠的是指令数据、人类反馈、系统提示和安全策略，而不是单纯把参数继续做大。

六、GPT-4：公开信息能确认什么

GPT-4 的公开技术报告和 system card 透露了重要信息：它是一个大规模多模态模型，在许多专业和学术基准上表现强于 GPT-3.5，并在安全评估、红队测试、对齐和部署风险上做了系统描述。

但 GPT-4 的许多具体细节没有公开，包括参数量、训练数据细节、训练计算量和完整架构。因此严肃写作时不能把网络传言当事实。可以说 GPT-4 代表了 GPT 路线在规模、多模态、对齐和产品化上的进一步成熟；不能断言未经公开确认的 MoE 结构、参数数量或训练配方。

GPT-4 的历史意义不只是“更强”。它让大语言模型从聊天玩具进入严肃生产力系统：代码、法律、医学、教育、数据分析、办公自动化都开始围绕它重新设计工作流。同时，它也让幻觉、越狱、安全评估、偏见、版权、隐私等问题变得更现实。

从架构主线看，GPT-4 继续证明了 Decoder-only 自回归路线的可扩展性。但它也提醒我们，模型能力越强，对齐和治理成本越高。GPT 路线的成功不是只发生在 pretraining，它同时依赖 post-training 和部署系统。

七、为什么 Decoder-only 路线赢得大模型时代

Decoder-only 路线赢得大模型时代，第一原因是训练目标简单统一。next-token prediction 不需要人工标注，不需要为每个任务设计标签，只需要大规模文本序列。互联网、书籍、代码、论文、对话都可以被组织成“预测下一个 token”的训练数据。

第二原因是生成接口足够通用。分类可以生成标签，问答可以生成答案，摘要可以生成摘要，代码补全可以生成代码，工具调用可以生成结构化参数。只要任务能写成文本输入和文本输出，Decoder-only 模型就能用同一种方式处理。

第三原因是 scaling 行为清晰。语言建模 loss、参数量、数据量、计算量之间存在可观察的规模规律，这让资源投入更容易规划。虽然 scaling laws 不是万能公式，但它给了工程团队一个比拍脑袋更可靠的方向。

第四原因是推理系统可以围绕自回归结构优化。KV Cache、continuous batching、speculative decoding、量化、张量并行等工程手段，都围绕“逐 token 生成”的结构展开。它们并没有消除自回归的串行性，但让 Decoder-only 模型可以被大规模服务化。

当然，这并不说明 Encoder-only 没价值。BERT 类模型在理解、检索、重排、分类、嵌入等场景仍然重要。只是当目标变成通用助手和统一任务接口时，生成模型的优势更明显。

八、GPT 路线的代价

GPT 路线的第一个代价是推理延迟。自回归模型一次生成一个 token，后一个 token 依赖前一个 token。训练时可以并行处理整段序列，推理时却存在天然串行性。KV Cache 能避免重复计算历史 K/V，但不能让未来 token 提前出现。

第二个代价是长上下文成本。上下文越长，attention 和 KV Cache 的成本越高。FlashAttention、PagedAttention、GQA、滑动窗口和压缩 cache 都是在缓解这个问题，但没有让它完全消失。

第三个代价是幻觉。next-token prediction 学的是文本分布，不是事实数据库的一致查询。模型可以生成语法流畅但事实错误的内容。检索增强、工具调用、引用约束和后训练可以降低风险，但不能把语言模型变成天然可靠的数据库。

第四个代价是对齐成本。模型越通用，可能输出的行为空间越大。让它既有用、又诚实、又安全、又不僵硬，需要大量指令数据、偏好数据、安全评估和产品反馈。

所以 GPT 路线不是“完美架构”，而是在当前数据、硬件和产品需求下最成功的通用生成路线。它的代价会在后面的 FlashAttention、KV Cache 和 Transformer 局限中反复出现。

九、关键概念回顾

Decoder-only Transformer：只使用带 causal mask 的 Transformer decoder 堆叠，不使用 encoder。
next-token prediction：给定前文预测下一个 token 的自回归训练目标。
zero-shot：不给任务示例或参数更新，直接通过任务描述完成任务。
few-shot / in-context learning：在上下文中给少量示例，让模型临时推断任务模式。
instruction tuning：用指令和答案数据把模型调成更会遵循请求的形式。
RLHF：使用人类偏好训练 reward model，再优化模型输出行为。
chat model：经过对话格式和对齐训练的语言模型，不等同于 raw base model。

十、常见误解

10.1 “GPT 就是 Transformer 换名字”

GPT 使用 Transformer，但它的关键是 Decoder-only 架构、自回归目标、规模扩展、prompt 接口和后训练范式的组合。只说“Transformer 换名字”会漏掉最重要的训练和使用方式。

10.2 “next-token prediction 太简单，所以不可能产生复杂能力”

训练目标简单，不代表学习到的结构简单。为了预测下一个 token，模型必须吸收语法、事实、风格、推理模式、代码结构和任务格式。复杂能力是否稳定出现取决于规模、数据和训练。

10.3 “GPT-4 的所有细节都已公开”

没有。公开材料能支持关于能力、评估、安全和部分产品行为的讨论，但不能支持未经确认的参数量、训练数据和完整架构断言。

10.4 “GPT 路线让 BERT 没用了”

不成立。生成式助手成为中心，不意味着 encoder 模型在检索、分类、匹配、嵌入和重排里失去价值。两条路线服务的任务形态不同。

十一、下一步

按系列顺序，后面会继续讲 T5、三大路线之争和位置编码演进。为了先抓住大模型时代最关键的工程瓶颈，我们接下来跳到一个高频主题：FlashAttention。它要回答的问题是，如果 attention 公式不变，为什么换一种计算方式就能显著更快、更省显存？

十二、参考文献

Radford, A. et al. “Improving Language Understanding by Generative Pre-Training.” OpenAI, 2018. GPT-1 技术报告。
Radford, A. et al. “Language Models are Unsupervised Multitask Learners.” OpenAI, 2019. GPT-2 技术报告。
Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020. GPT-3 与 in-context learning 的代表论文。
Ouyang, L. et al. “Training language models to follow instructions with human feedback.” NeurIPS 2022. InstructGPT 与 RLHF 的关键论文。
OpenAI. “GPT-4 Technical Report.” arXiv:2303.08774, 2023. GPT-4 公开技术报告。
OpenAI. “GPT-4 System Card.” 2023. GPT-4 安全评估与部署风险公开材料。
Kaplan, J. et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361, 2020. 语言模型规模规律的重要来源。
Hoffmann, J. et al. “Training Compute-Optimal Large Language Models.” NeurIPS 2022. Chinchilla scaling laws。

← 上一篇：37｜BERT　|　下一篇：39｜T5 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer