很多人第一次看大模型后训练,会同时撞上三套词汇:机器学习里的监督微调,强化学习里的策略优化,对齐论文里的偏好建模。
更麻烦的是,2022 年后的 RLHF、2023 年后的 DPO、2024–2025 年的 RLVR 与推理模型,解决的并不是同一个问题。
如果把它们都叫「对齐」,读者很容易误以为后训练只是让模型更礼貌、更安全、更像助手。
这篇只做一件事:给出本系列的路线图,先把阶段、目标、方法和依赖关系放到同一张地图上。
读完之后,你应该能判断自己该从哪一篇开始读,也能解释为什么后训练已经从「风格对齐」扩展到「能力训练」。
一、为什么需要这套地图
预训练模型的目标很简单:给定上下文,预测下一个 token。
这个目标让模型压缩互联网语料、代码、数学文本、问答和对话中的统计结构。
但用户真正要的不是「像训练语料一样继续写」。
用户要的是:遵循指令,拒绝危险请求,给出有用答案,解出数学题,写出可运行代码,并在不确定时表达边界。
这些要求和下一个 token 预测有重叠,但不等价。
后训练(post-training)就是在预训练之后,把模型行为推向特定使用目标的一组方法。
它不是单个算法。
它是一条流水线。
这条流水线通常包含数据构造、监督微调、奖励建模、策略优化、评测回归和安全控制。
如果只盯着其中一个词,例如 PPO 或 DPO,就会看不到系统边界。
PPO 不是 RLHF 的全部。
DPO 也不是后训练的终点。
RLVR 更不是把提示词写得更长。
这些方法都在回答同一个高层问题:预训练模型已经有大量潜在能力,如何把它们稳定地调出来,并让行为符合任务目标。
本系列的第一部分先补强化学习最小必要集。
不是为了把读者训练成通用 RL 研究员。
而是为了让读者看懂后面的 PPO、GRPO、RLVR、奖励黑客和训练稳定性。
第二部分进入后训练流水线。
第三部分对比 RLHF、DPO、GRPO 等核心方法。
第四部分讨论推理模型和可验证奖励。
第五部分落到基础设施、稳定性和评测。
第六部分收束到前沿方向。
这张地图的价值在于先把「每个方法解决什么问题」讲清楚。
然后再进入公式和工程细节。
二、五阶段主线:预训练、SFT、奖励建模、策略优化、评测
把现代后训练压缩到最小骨架,可以得到五个阶段。
第一阶段是预训练(pretraining)。
模型在大规模文本上学习下一个 token 的概率分布。
它获得语言、知识、代码模式和推理轨迹的统计压缩。
但预训练目标没有告诉模型「用户问我问题时应该怎么回答」。
第二阶段是监督微调(Supervised Fine-Tuning,SFT)。
SFT 使用指令—回答数据,把模型从补全文本的模式推向助手式响应。
它告诉模型对话格式、拒答格式、工具调用格式和常见任务写法。
SFT 的优点是稳定、便宜、目标清楚。
SFT 的限制是只能模仿给定答案。
当两个答案都合理但质量不同,SFT 只能看到被选中的那一个。
第三阶段是奖励建模(reward modeling)。
奖励模型把人类偏好、规则评分或任务正确性压成一个标量信号。
在经典 RLHF 中,这个标量来自偏好数据训练出的奖励模型。
在 RLVR 中,这个标量可以来自数学答案校验器、代码单元测试或形式化规则。
奖励不是事实本身。
奖励是训练系统选择行为的代理目标。
第四阶段是策略优化(policy optimization)。
策略就是正在生成答案的语言模型。
优化的目标是让它生成更高奖励的回答,同时不要离参考模型太远。
PPO、REINFORCE、RLOO、GRPO 都属于这一层的不同取舍。
DPO 则把偏好优化改写成离线分类目标,绕开显式奖励模型和在线 RL。
第五阶段是评测(evaluation)。
后训练不能只看训练奖励。
奖励可能被模型钻空子。
偏好胜率可能掩盖能力回退。
数学正确率可能伴随长输出膨胀。
安全拒答可能损伤正常问题的帮助性。
所以评测要同时覆盖目标能力、安全性、指令遵循、推理、代码、回归和分布外行为。
这五个阶段的关系可以用一句话概括:预训练提供能力底座,SFT 定义交互格式,奖励建模定义偏好或正确性,策略优化放大被奖励的行为,评测检查有没有训偏。
下表给出更细的对应关系。
| 阶段 | 核心输入 | 训练目标 | 主要风险 | 本系列位置 |
|---|---|---|---|---|
| 预训练 | 大规模文本 | 下一个 token 似然 | 数据污染、目标错配 | 01、06 |
| SFT | 指令—回答样本 | 模仿参考答案 | 过拟合格式、覆盖不足 | 07 |
| 奖励建模 | 偏好对或规则评分 | 学到质量排序或可验证正确性 | 奖励黑客、长度偏置 | 08、13、15、16 |
| 策略优化 | 在线采样回答 | 最大化奖励并受 KL 约束 | KL 失控、熵塌缩、方差过高 | 03、04、05、09、12 |
| 评测 | 基准、红队、回归集 | 发现能力变化和失效模式 | 指标单一、过拟合榜单 | 19 |
这张表也解释了为什么后训练文章容易读散。
有的论文在改奖励。
有的论文在改优化器。
有的论文在改数据。
有的论文在改评测。
如果不先定位阶段,就很难比较方法。
三、风格对齐和能力激发不是一回事
讨论后训练时,最容易混淆的是两类目标。
第一类是风格对齐。
它关注模型如何表达。
例如更礼貌、更简洁、更像助手、拒绝危险请求、按照模板输出 JSON、避免无根据的自信。
这些目标通常可以通过高质量 SFT 和偏好数据明显改善。
第二类是能力激发。
它关注模型能否完成原来不稳定或很少表现出来的任务。
例如多步数学推理、复杂代码调试、长链路规划、工具使用、从错误尝试中恢复。
这些能力可能已经部分存在于预训练模型的参数中。
后训练要做的是改变采样分布和搜索行为,让模型更常走到正确轨迹。
两类目标会互相影响。
一个模型如果不遵循指令,再强的数学能力也无法稳定服务用户。
一个模型如果只学会礼貌复述,却无法解决问题,风格再好也没有价值。
但它们的训练信号不同。
风格对齐常常依赖人类偏好。
能力激发更依赖可验证任务、明确评分和大规模采样。
这就是 RLHF 到 RLVR 的关键转向。
RLHF 的典型奖励来自人类偏好模型。
偏好模型擅长判断回答是否有帮助、是否安全、是否符合人类口味。
但它不一定能可靠判断复杂数学证明或长代码修复是否真的正确。
RLVR 的奖励来自可验证结果。
数学题可以比对最终答案。
代码题可以跑单元测试。
形式化任务可以用检查器。
这种奖励更窄,但更硬。
它不要求奖励模型理解所有推理过程。
它只要求最终结果可判定。
因此,风格对齐和能力激发的分界不在「用不用 RL」。
分界在奖励信号到底描述表达偏好,还是描述任务成功。
本系列后面的术语都围绕这条线展开。
SFT 先让模型进入可用交互模式。
RLHF 主要改善人类偏好下的回答质量。
DPO 把偏好优化简化为离线目标。
RLVR 把可验证正确性作为强化信号。
GRPO、RLOO 等方法则是在策略优化层面降低成本或方差。
四、从 InstructGPT 到 DPO,再到 RLVR 与推理模型
2022 年 InstructGPT 把 RLHF 带入主流视野。
Ouyang 等人的流程分三步:先用人工示范做 SFT,再用成对偏好训练奖励模型,最后用 PPO 优化策略并加入 KL 约束。
这个框架的关键不只是 PPO。
关键是把「人类更喜欢哪个回答」变成可优化的训练信号。
对当时的聊天模型来说,这明显改变了交互质量。
模型更愿意回答指令,更少延续无关文本,更接近人类期望的助手行为。
但 RLHF 工程复杂。
它需要在线采样。
它需要奖励模型推理。
它需要参考模型计算 KL。
它需要价值网络估计优势。
它还需要大量稳定性调参。
2023 年 DPO 提出了另一条路线。
Rafailov 等人从带 KL 约束的偏好优化目标出发,推导出一个只需要偏好对的分类损失。
DPO 不显式训练奖励模型。
DPO 不运行在线 PPO。
DPO 直接让被偏好的回答相对参考模型概率更高,让被拒绝的回答相对参考模型概率更低。
这让偏好对齐的工程门槛大幅降低。
但 DPO 也有边界。
它依赖离线偏好数据。
它不天然产生新的探索轨迹。
它更像是在已有答案集合上调整相对概率。
当目标是让模型通过采样发现新的推理路径时,离线偏好优化不一定够。
2024–2025 年,推理模型把焦点推向 RLVR。
OpenAI o 系列和 DeepSeek-R1 这类工作让社区重新关注一个事实:如果任务奖励可以被规则验证,那么强化学习可以直接优化任务成功。
数学、代码、逻辑题、部分工具任务都适合这种范式。
模型通过生成更长的中间推理、尝试不同路径、反思错误,增加最终正确的概率。
这里的后训练不再只是让模型「更像一个好助手」。
它开始直接塑造解题策略。
这也是本系列标题里把强化学习和大模型后训练放在一起的原因。
没有 RL 基础,很难看清 PPO、GRPO、RLOO 的差异。
没有 LLM 语境,也很难理解为什么传统 RL 的状态、动作、奖励在语言模型里会变成 token、序列和终止奖励。
五、六个部分如何依赖
本系列有 20 篇。
它们不是并列词条,而是从基础到应用逐步展开。
下面的 Mermaid 图只表达依赖关系,不表达时间顺序。
graph TD
P1[第一部分 RL 最小必要集\n02-05] --> P2[第二部分 后训练全景\n06-08]
P2 --> P3[第三部分 RLHF 与免 RL 对齐\n09-12]
P3 --> P4[第四部分 推理模型与可验证奖励\n13-16]
P3 --> P5[第五部分 基础设施与稳定性\n17-19]
P4 --> P5
P5 --> P6[第六部分 前沿展望\n20]
P2 --> P6
第一部分包括 02 到 05。
02|MDP、回报与贝尔曼方程 定义状态、动作、转移、奖励、回报和价值函数。
这篇回答「为什么生成一句话可以被看成序列决策」。
03|策略梯度与 REINFORCE 从期望回报推导策略梯度。
这篇回答「为什么可以直接提高高奖励回答的对数概率」。
04|Actor-Critic 与优势函数、GAE 解释价值网络和优势估计。
这篇回答「为什么 PPO 需要 Critic,以及方差怎么降」。
05|PPO 深度解剖 进入裁剪目标、KL 约束和实现细节。
这篇是理解 RLHF-PPO 和很多在线后训练方法的关键。
第二部分包括 06 到 08。
06|后训练全景 把 SFT、奖励模型、RLHF 和评测连成流水线。
07|监督微调 讲数据模板、loss mask 和初始化作用。
08|奖励模型 讲偏好数据、Bradley-Terry 模型和奖励黑客入口。
第三部分包括 09 到 12。
09|RLHF 全链路 把 SFT 模型、奖励模型、参考模型、价值头和 PPO 放进同一个训练循环。
10|DPO 推导免 RL 偏好优化。
11|DPO 家族 比较 IPO、KTO、ORPO、SimPO 等变体。
12|GRPO 讲组相对优势如何替代 Critic。
第四部分包括 13 到 16。
13|RLVR 解释可验证奖励如何服务数学和代码任务。
14|推理模型 讨论 o1/R1 范式下长思维链行为如何被训练出来。
15|过程奖励 比较 PRM 和 ORM。
16|奖励黑客 总结奖励过优化、长度偏置和对齐税。
第五部分包括 17 到 19。
17|RL 基础设施 讲采样、奖励、训练的系统编排。
18|训练稳定性 讲 KL、熵、梯度、长度和崩溃诊断。
19|后训练评测 讲偏好、推理、安全和回归评测。
第六部分是 20|前沿展望。
它回看 RLHF、DPO、RLVR 的共同原则,并讨论自我对弈、宪法 AI、Agentic RL 和合成数据飞轮。
如果你只想补 RL 基础,读 02 到 05。
如果你只想理解后训练流水线,读 06 到 10。
如果你关心推理模型,读 05、12、13、14、15。
如果你负责训练平台,读 09、17、18、19。
如果你只想判断方法取舍,读 01、05、10、12、13、16。
六、读这个系列时要保留的边界感
后训练领域变化很快。
但有些原则比较稳定。
第一,奖励定义比优化算法更重要。
如果奖励错了,优化越强,模型越快学会错误行为。
第二,离线偏好优化和在线强化学习解决的问题不同。
DPO 降低工程复杂度,但不等于所有 RL 都可以删除。
第三,可验证奖励很强,但适用范围有限。
数学和代码容易验证。
开放式写作、价值判断和复杂安全场景难以用单一规则评分。
第四,训练指标不能替代评测。
奖励上升可能是质量提升,也可能是奖励黑客。
KL 下降可能是稳定,也可能是模型不再学习。
长度增加可能是更充分推理,也可能是冗长逃逸。
第五,后训练不是魔法。
它可以放大预训练中已有的能力,也可以改变模型搜索答案的方式。
但它不能凭空保证模型掌握训练数据、架构和推理预算之外的所有能力。
本系列会尽量把论文结论、公式推导和工程判断分开。
论文报告的现象,会写清来源。
公式能推导的地方,会给出推导。
工程判断会说明依赖的假设。
不确定的地方不会写成定论。
七、本篇的最短结论
后训练可以看成五阶段流水线:预训练、SFT、奖励建模、策略优化、评测。
风格对齐关注表达方式。
能力激发关注任务成功率和搜索策略。
RLHF 用人类偏好模型把助手行为训练出来。
DPO 把偏好优化改写成离线分类损失。
RLVR 用可验证奖励把推理和解题行为纳入强化学习。
这 20 篇文章的主线,就是从 RL 最小必要集出发,解释这些方法为什么成立、怎么实现、在哪些地方会失效。
下一篇从最小的强化学习语言开始:MDP、回报、价值函数和贝尔曼方程。
参考资料
- Ouyang, L., Wu, J., Jiang, X., et al. 2022. Training language models to follow instructions with human feedback. NeurIPS 2022.
- Christiano, P. F., Leike, J., Brown, T. B., et al. 2017. Deep reinforcement learning from human preferences. NeurIPS 2017.
- Rafailov, R., Sharma, A., Mitchell, E., et al. 2023. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.
- Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. 2017. Proximal Policy Optimization Algorithms. arXiv:1707.06347.
- Sutton, R. S., Barto, A. G. 2018. Reinforcement Learning: An Introduction. 2nd edition. MIT Press.
- DeepSeek-AI. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
返回:系列总览 | 下一篇:02|MDP、回报与贝尔曼方程 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
强化学习与大模型后训练
从 MDP、策略梯度、PPO 等强化学习最小必要集出发,系统讲清现代大模型后训练:SFT、奖励模型、RLHF,到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO,再到 RLVR 可验证奖励、推理模型(o1/R1 范式)、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。
【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测
把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线,说明每一阶段改变模型的哪一部分。
【强化学习与大模型后训练】10|DPO:把 RLHF 变成一个分类损失
从 KL 正则 RLHF 目标推导 DPO,解释隐式奖励、Bradley-Terry 替换、梯度含义,以及它省掉在线 PPO 的代价。
【强化学习与大模型后训练】02|MDP、回报与贝尔曼方程
用面向语言模型的最小强化学习集合定义 MDP、回报、价值、优势和贝尔曼方程,并解释 token 级与序列级建模的差异。