【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

很多人第一次看大模型后训练，会同时撞上三套词汇：机器学习里的监督微调，强化学习里的策略优化，对齐论文里的偏好建模。

更麻烦的是，2022 年后的 RLHF、2023 年后的 DPO、2024–2025 年的 RLVR 与推理模型，解决的并不是同一个问题。

如果把它们都叫「对齐」，读者很容易误以为后训练只是让模型更礼貌、更安全、更像助手。

这篇只做一件事：给出本系列的路线图，先把阶段、目标、方法和依赖关系放到同一张地图上。

读完之后，你应该能判断自己该从哪一篇开始读，也能解释为什么后训练已经从「风格对齐」扩展到「能力训练」。

一、为什么需要这套地图

预训练模型的目标很简单：给定上下文，预测下一个 token。

这个目标让模型压缩互联网语料、代码、数学文本、问答和对话中的统计结构。

但用户真正要的不是「像训练语料一样继续写」。

用户要的是：遵循指令，拒绝危险请求，给出有用答案，解出数学题，写出可运行代码，并在不确定时表达边界。

这些要求和下一个 token 预测有重叠，但不等价。

后训练（post-training）就是在预训练之后，把模型行为推向特定使用目标的一组方法。

它不是单个算法。

它是一条流水线。

这条流水线通常包含数据构造、监督微调、奖励建模、策略优化、评测回归和安全控制。

如果只盯着其中一个词，例如 PPO 或 DPO，就会看不到系统边界。

PPO 不是 RLHF 的全部。

DPO 也不是后训练的终点。

RLVR 更不是把提示词写得更长。

这些方法都在回答同一个高层问题：预训练模型已经有大量潜在能力，如何把它们稳定地调出来，并让行为符合任务目标。

本系列的第一部分先补强化学习最小必要集。

不是为了把读者训练成通用 RL 研究员。

而是为了让读者看懂后面的 PPO、GRPO、RLVR、奖励黑客和训练稳定性。

第二部分进入后训练流水线。

第三部分对比 RLHF、DPO、GRPO 等核心方法。

第四部分讨论推理模型和可验证奖励。

第五部分落到基础设施、稳定性和评测。

第六部分收束到前沿方向。

这张地图的价值在于先把「每个方法解决什么问题」讲清楚。

然后再进入公式和工程细节。

二、五阶段主线：预训练、SFT、奖励建模、策略优化、评测

把现代后训练压缩到最小骨架，可以得到五个阶段。

第一阶段是预训练（pretraining）。

模型在大规模文本上学习下一个 token 的概率分布。

它获得语言、知识、代码模式和推理轨迹的统计压缩。

但预训练目标没有告诉模型「用户问我问题时应该怎么回答」。

第二阶段是监督微调（Supervised Fine-Tuning，SFT）。

SFT 使用指令—回答数据，把模型从补全文本的模式推向助手式响应。

它告诉模型对话格式、拒答格式、工具调用格式和常见任务写法。

SFT 的优点是稳定、便宜、目标清楚。

SFT 的限制是只能模仿给定答案。

当两个答案都合理但质量不同，SFT 只能看到被选中的那一个。

第三阶段是奖励建模（reward modeling）。

奖励模型把人类偏好、规则评分或任务正确性压成一个标量信号。

在经典 RLHF 中，这个标量来自偏好数据训练出的奖励模型。

在 RLVR 中，这个标量可以来自数学答案校验器、代码单元测试或形式化规则。

奖励不是事实本身。

奖励是训练系统选择行为的代理目标。

第四阶段是策略优化（policy optimization）。

策略就是正在生成答案的语言模型。

优化的目标是让它生成更高奖励的回答，同时不要离参考模型太远。

PPO、REINFORCE、RLOO、GRPO 都属于这一层的不同取舍。

DPO 则把偏好优化改写成离线分类目标，绕开显式奖励模型和在线 RL。

第五阶段是评测（evaluation）。

后训练不能只看训练奖励。

奖励可能被模型钻空子。

偏好胜率可能掩盖能力回退。

数学正确率可能伴随长输出膨胀。

安全拒答可能损伤正常问题的帮助性。

所以评测要同时覆盖目标能力、安全性、指令遵循、推理、代码、回归和分布外行为。

这五个阶段的关系可以用一句话概括：预训练提供能力底座，SFT 定义交互格式，奖励建模定义偏好或正确性，策略优化放大被奖励的行为，评测检查有没有训偏。

下表给出更细的对应关系。

阶段	核心输入	训练目标	主要风险	本系列位置
预训练	大规模文本	下一个 token 似然	数据污染、目标错配	01、06
SFT	指令—回答样本	模仿参考答案	过拟合格式、覆盖不足	07
奖励建模	偏好对或规则评分	学到质量排序或可验证正确性	奖励黑客、长度偏置	08、13、15、16
策略优化	在线采样回答	最大化奖励并受 KL 约束	KL 失控、熵塌缩、方差过高	03、04、05、09、12
评测	基准、红队、回归集	发现能力变化和失效模式	指标单一、过拟合榜单	19

这张表也解释了为什么后训练文章容易读散。

有的论文在改奖励。

有的论文在改优化器。

有的论文在改数据。

有的论文在改评测。

如果不先定位阶段，就很难比较方法。

三、风格对齐和能力激发不是一回事

讨论后训练时，最容易混淆的是两类目标。

第一类是风格对齐。

它关注模型如何表达。

例如更礼貌、更简洁、更像助手、拒绝危险请求、按照模板输出 JSON、避免无根据的自信。

这些目标通常可以通过高质量 SFT 和偏好数据明显改善。

第二类是能力激发。

它关注模型能否完成原来不稳定或很少表现出来的任务。

例如多步数学推理、复杂代码调试、长链路规划、工具使用、从错误尝试中恢复。

这些能力可能已经部分存在于预训练模型的参数中。

后训练要做的是改变采样分布和搜索行为，让模型更常走到正确轨迹。

两类目标会互相影响。

一个模型如果不遵循指令，再强的数学能力也无法稳定服务用户。

一个模型如果只学会礼貌复述，却无法解决问题，风格再好也没有价值。

但它们的训练信号不同。

风格对齐常常依赖人类偏好。

能力激发更依赖可验证任务、明确评分和大规模采样。

这就是 RLHF 到 RLVR 的关键转向。

RLHF 的典型奖励来自人类偏好模型。

偏好模型擅长判断回答是否有帮助、是否安全、是否符合人类口味。

但它不一定能可靠判断复杂数学证明或长代码修复是否真的正确。

RLVR 的奖励来自可验证结果。

数学题可以比对最终答案。

代码题可以跑单元测试。

形式化任务可以用检查器。

这种奖励更窄，但更硬。

它不要求奖励模型理解所有推理过程。

它只要求最终结果可判定。

因此，风格对齐和能力激发的分界不在「用不用 RL」。

分界在奖励信号到底描述表达偏好，还是描述任务成功。

本系列后面的术语都围绕这条线展开。

SFT 先让模型进入可用交互模式。

RLHF 主要改善人类偏好下的回答质量。

DPO 把偏好优化简化为离线目标。

RLVR 把可验证正确性作为强化信号。

GRPO、RLOO 等方法则是在策略优化层面降低成本或方差。

四、从 InstructGPT 到 DPO，再到 RLVR 与推理模型

2022 年 InstructGPT 把 RLHF 带入主流视野。

Ouyang 等人的流程分三步：先用人工示范做 SFT，再用成对偏好训练奖励模型，最后用 PPO 优化策略并加入 KL 约束。

这个框架的关键不只是 PPO。

关键是把「人类更喜欢哪个回答」变成可优化的训练信号。

对当时的聊天模型来说，这明显改变了交互质量。

模型更愿意回答指令，更少延续无关文本，更接近人类期望的助手行为。

但 RLHF 工程复杂。

它需要在线采样。

它需要奖励模型推理。

它需要参考模型计算 KL。

它需要价值网络估计优势。

它还需要大量稳定性调参。

2023 年 DPO 提出了另一条路线。

Rafailov 等人从带 KL 约束的偏好优化目标出发，推导出一个只需要偏好对的分类损失。

DPO 不显式训练奖励模型。

DPO 不运行在线 PPO。

DPO 直接让被偏好的回答相对参考模型概率更高，让被拒绝的回答相对参考模型概率更低。

这让偏好对齐的工程门槛大幅降低。

但 DPO 也有边界。

它依赖离线偏好数据。

它不天然产生新的探索轨迹。

它更像是在已有答案集合上调整相对概率。

当目标是让模型通过采样发现新的推理路径时，离线偏好优化不一定够。

2024–2025 年，推理模型把焦点推向 RLVR。

OpenAI o 系列和 DeepSeek-R1 这类工作让社区重新关注一个事实：如果任务奖励可以被规则验证，那么强化学习可以直接优化任务成功。

数学、代码、逻辑题、部分工具任务都适合这种范式。

模型通过生成更长的中间推理、尝试不同路径、反思错误，增加最终正确的概率。

这里的后训练不再只是让模型「更像一个好助手」。

它开始直接塑造解题策略。

这也是本系列标题里把强化学习和大模型后训练放在一起的原因。

没有 RL 基础，很难看清 PPO、GRPO、RLOO 的差异。

没有 LLM 语境，也很难理解为什么传统 RL 的状态、动作、奖励在语言模型里会变成 token、序列和终止奖励。

五、六个部分如何依赖

本系列有 20 篇。

它们不是并列词条，而是从基础到应用逐步展开。

下面的 Mermaid 图只表达依赖关系，不表达时间顺序。

graph TD
    P1[第一部分 RL 最小必要集\n02-05] --> P2[第二部分 后训练全景\n06-08]
    P2 --> P3[第三部分 RLHF 与免 RL 对齐\n09-12]
    P3 --> P4[第四部分 推理模型与可验证奖励\n13-16]
    P3 --> P5[第五部分 基础设施与稳定性\n17-19]
    P4 --> P5
    P5 --> P6[第六部分 前沿展望\n20]
    P2 --> P6

第一部分包括 02 到 05。

02｜MDP、回报与贝尔曼方程定义状态、动作、转移、奖励、回报和价值函数。

这篇回答「为什么生成一句话可以被看成序列决策」。

03｜策略梯度与 REINFORCE 从期望回报推导策略梯度。

这篇回答「为什么可以直接提高高奖励回答的对数概率」。

04｜Actor-Critic 与优势函数、GAE 解释价值网络和优势估计。

这篇回答「为什么 PPO 需要 Critic，以及方差怎么降」。

05｜PPO 深度解剖进入裁剪目标、KL 约束和实现细节。

这篇是理解 RLHF-PPO 和很多在线后训练方法的关键。

第二部分包括 06 到 08。

06｜后训练全景把 SFT、奖励模型、RLHF 和评测连成流水线。

07｜监督微调讲数据模板、loss mask 和初始化作用。

08｜奖励模型讲偏好数据、Bradley-Terry 模型和奖励黑客入口。

第三部分包括 09 到 12。

09｜RLHF 全链路把 SFT 模型、奖励模型、参考模型、价值头和 PPO 放进同一个训练循环。

10｜DPO 推导免 RL 偏好优化。

11｜DPO 家族比较 IPO、KTO、ORPO、SimPO 等变体。

12｜GRPO 讲组相对优势如何替代 Critic。

第四部分包括 13 到 16。

13｜RLVR 解释可验证奖励如何服务数学和代码任务。

14｜推理模型讨论 o1/R1 范式下长思维链行为如何被训练出来。

15｜过程奖励比较 PRM 和 ORM。

16｜奖励黑客总结奖励过优化、长度偏置和对齐税。

第五部分包括 17 到 19。

17｜RL 基础设施讲采样、奖励、训练的系统编排。

18｜训练稳定性讲 KL、熵、梯度、长度和崩溃诊断。

19｜后训练评测讲偏好、推理、安全和回归评测。

第六部分是 20｜前沿展望。

它回看 RLHF、DPO、RLVR 的共同原则，并讨论自我对弈、宪法 AI、Agentic RL 和合成数据飞轮。

如果你只想补 RL 基础，读 02 到 05。

如果你只想理解后训练流水线，读 06 到 10。

如果你关心推理模型，读 05、12、13、14、15。

如果你负责训练平台，读 09、17、18、19。

如果你只想判断方法取舍，读 01、05、10、12、13、16。

六、读这个系列时要保留的边界感

后训练领域变化很快。

但有些原则比较稳定。

第一，奖励定义比优化算法更重要。

如果奖励错了，优化越强，模型越快学会错误行为。

第二，离线偏好优化和在线强化学习解决的问题不同。

DPO 降低工程复杂度，但不等于所有 RL 都可以删除。

第三，可验证奖励很强，但适用范围有限。

数学和代码容易验证。

开放式写作、价值判断和复杂安全场景难以用单一规则评分。

第四，训练指标不能替代评测。

奖励上升可能是质量提升，也可能是奖励黑客。

KL 下降可能是稳定，也可能是模型不再学习。

长度增加可能是更充分推理，也可能是冗长逃逸。

第五，后训练不是魔法。

它可以放大预训练中已有的能力，也可以改变模型搜索答案的方式。

但它不能凭空保证模型掌握训练数据、架构和推理预算之外的所有能力。

本系列会尽量把论文结论、公式推导和工程判断分开。

论文报告的现象，会写清来源。

公式能推导的地方，会给出推导。

工程判断会说明依赖的假设。

不确定的地方不会写成定论。

七、本篇的最短结论

后训练可以看成五阶段流水线：预训练、SFT、奖励建模、策略优化、评测。

风格对齐关注表达方式。

能力激发关注任务成功率和搜索策略。

RLHF 用人类偏好模型把助手行为训练出来。

DPO 把偏好优化改写成离线分类损失。

RLVR 用可验证奖励把推理和解题行为纳入强化学习。

这 20 篇文章的主线，就是从 RL 最小必要集出发，解释这些方法为什么成立、怎么实现、在哪些地方会失效。

下一篇从最小的强化学习语言开始：MDP、回报、价值函数和贝尔曼方程。

参考资料

Ouyang, L., Wu, J., Jiang, X., et al. 2022. Training language models to follow instructions with human feedback. NeurIPS 2022.
Christiano, P. F., Leike, J., Brown, T. B., et al. 2017. Deep reinforcement learning from human preferences. NeurIPS 2017.
Rafailov, R., Sharma, A., Mitchell, E., et al. 2023. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. 2017. Proximal Policy Optimization Algorithms. arXiv:1707.06347.
Sutton, R. S., Barto, A. G. 2018. Reinforcement Learning: An Introduction. 2nd edition. MIT Press.
DeepSeek-AI. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.

返回：系列总览　|　下一篇：02｜MDP、回报与贝尔曼方程 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-05-29 · rl-posttraining