强化学习与大模型后训练

预训练决定了模型”知道什么”，后训练决定了模型”愿意怎么用”。从 InstructGPT 把 RLHF 带进主流，到 DPO 用一个分类损失绕开在线 RL，再到 2024–2025 年 DeepSeek-R1、OpenAI o 系列用可验证奖励（RLVR）把”长思维链推理”训出来，后训练已经从”对齐礼貌”演变成”训练能力”的核心环节。但这条线索散落在几十篇论文里：策略梯度、PPO 的实现陷阱、奖励模型的偏好建模、DPO 家族的取舍、GRPO 去掉 Critic 的动机、过程奖励与结果奖励之争、奖励黑客与对齐税——很少有资料把它们从第一性原理串成一条工程路线。

这个系列就是要把这条路线讲清楚：先补齐为 LLM 服务的最小必要 RL 基础，再沿 SFT → 奖励模型 → RLHF → 免 RL 对齐 → 可验证奖励与推理模型 → 基础设施与评测 逐层展开。既讲原理推导（为什么是 PPO 的裁剪目标、为什么 DPO 等价于隐式奖励），也讲工程细节（KL 系数、长度偏置、采样-训练编排、训练崩溃诊断）。

本系列为工程与原理参考。所有公式按推导给出，涉及具体方法时标注论文与版本边界；不编造 benchmark 数字。

一、这个系列要回答的五个问题

后训练到底改变了模型的什么？为什么”对齐”和”提升能力”是两回事又彼此纠缠？
- 回答思路：从预训练目标（下一个 token 似然）与人类偏好/任务正确性目标的错配讲起，区分”风格对齐”和”能力激发”两类后训练，再说明 SFT、RLHF、RLVR 各自动了哪一层。详见 06、07、13、14 篇。
既然有 SFT，为什么还需要 RL？RLHF 相比 SFT 多解决了什么问题？
- 回答思路：SFT 只能模仿正例，无法利用”哪个更差”的信号，也容易过拟合标注分布；偏好学习与策略优化引入相对偏好和探索。详见 07、08、09 篇。
PPO、DPO、GRPO 到底什么关系？什么时候该用哪个？
- 回答思路：PPO 是在线策略优化的通用框架，DPO 用偏好数据推导出隐式奖励、把在线 RL 变成离线分类，GRPO 保留在线采样但用组内相对优势去掉 Critic。三者在数据形态、稳定性、成本上各有取舍。详见 05、09、10、12 篇。
可验证奖励（RLVR）为什么能训出推理能力？它和传统 RLHF 的本质差异在哪？
- 回答思路：RLHF 的奖励来自学到的偏好模型（可被 hack），RLVR 的奖励来自规则可验证的正确性信号（数学/代码），结合大规模采样与策略优化，把”长思维链”作为可被强化的行为训出来。详见 13、14、15 篇。
后训练为什么这么容易”训坏”？崩溃、奖励黑客、对齐税从哪来，怎么诊断？
- 回答思路：从奖励模型过优化、KL 失控、熵塌缩、长度偏置、分布漂移等失效模式入手，给出监控指标与缓解手段。详见 08、16、18、19 篇。

二、适合谁看

对齐 / 后训练工程师：SFT、奖励模型、RLHF、DPO 家族、GRPO 的取舍与实现。
做推理模型的研究员 / 工程师：RLVR、过程奖励、长思维链训练。
训练基础设施 / 平台工程师：采样-训练分离、PPO 编排、训练稳定性与评测。
想补 RL 基础的 LLM 工程师：第一部分用最小必要集把 MDP、策略梯度、PPO 讲顺。

三、推荐阅读路径

零 RL 基础补课 → 02 → 03 → 04 → 05
后训练主线（最短路径） → 06 → 07 → 08 → 09 → 10 → 12
免 RL 对齐路线 → 08 → 10 → 11
推理模型路线 → 05 → 12 → 13 → 14 → 15
工程落地路线 → 09 → 16 → 17 → 18 → 19

四、篇目依赖关系

[01 总览]
   │
   ▼
[02 MDP] → [03 策略梯度] → [04 Actor-Critic/GAE] → [05 PPO]
   │                                                  │
   ▼                                                  ▼
[06 后训练全景] → [07 SFT] → [08 奖励模型] ───────► [09 RLHF/PPO]
                                  │                    │
                                  ▼                    ▼
                          [10 DPO] → [11 DPO 家族]  [12 GRPO]
                                                       │
                                                       ▼
                          [13 RLVR] → [14 推理模型] → [15 过程奖励]
                                                       │
                                                       ▼
            [16 奖励黑客] ─┬─► [17 RL 基础设施] ─► [18 稳定性] ─► [19 评测]
                           │
                           ▼
                       [20 前沿与展望]

五、目录

每篇条目后的一句话，说明这篇文章真正想表达的东西，以及读者最值得带走的核心知识。

第一部分：强化学习基础（为 LLM 服务的最小必要集）

系列总览：从 RL 到 LLM 后训练的地图：建立”预训练 / SFT / 奖励建模 / 策略优化 / 评测”五个环节的地图，让读者先知道每篇文章解决整条后训练链路上的哪一步。
MDP、回报与贝尔曼方程：用最小必要集讲清状态、动作、回报、价值与贝尔曼方程，让读者理解把”生成一句话”建模成序列决策意味着什么。
策略梯度与 REINFORCE：从最大化期望回报推导策略梯度，让读者看懂为什么可以直接对”采样出来的句子”求梯度，以及方差从哪来。
Actor-Critic 与优势函数、GAE：引入基线、优势函数与 GAE，让读者理解降方差是让策略梯度在 LLM 上可用的关键工程手段。
PPO 深度解剖：裁剪目标、KL 约束与实现陷阱：拆解 PPO 的裁剪目标和信任域思想，让读者掌握后训练里几乎所有在线 RL 方法共享的稳定性地基与常见实现坑。

第二部分：从预训练到对齐——后训练全景

后训练全景：SFT → RM → RLHF → 评测：串联现代后训练各阶段，让读者看清后训练是数据、目标函数、采样和评测组成的流水线，而非一次微调脚本。
监督微调（SFT）：指令数据、模板与训练细节：讲清指令数据构造、对话模板、loss mask 与过拟合控制，让读者理解 SFT 既是后训练起点，也是后续 RL 的策略初始化。
奖励模型：偏好数据、Bradley-Terry 与奖励黑客：从成对偏好与 Bradley-Terry 建模讲到奖励模型的过优化，让读者明白奖励信号的质量直接决定 RLHF 的上限和失效方式。

第三部分：RLHF 与免 RL 的对齐方法

RLHF 全链路：用 PPO 对齐语言模型：把 SFT、奖励模型、PPO 与参考模型 KL 约束串成完整对齐流水线，让读者理解 RLHF 的工程复杂度集中在采样、奖励和稳定性。
DPO：把 RLHF 变成一个分类损失：推导 DPO 如何从 RLHF 目标导出隐式奖励，让读者看懂它如何用离线偏好数据绕开奖励模型与在线采样，以及代价是什么。
DPO 家族：IPO、KTO、ORPO、SimPO 的取舍：对比 DPO 的主要变体在数据形态、参考模型、长度偏置上的差异，让读者学会按数据条件和稳定性需求选方法。
GRPO：去掉 Critic 的组相对策略优化：解释 GRPO 如何用组内相对优势替代价值网络，让读者理解它在保留在线探索的同时降低显存与工程复杂度的取舍。

第四部分：推理模型与可验证奖励

RLVR：可验证奖励如何训练推理能力：讲清以规则可验证的正确性为奖励的训练范式，让读者理解 RLVR 为什么比偏好奖励更难被 hack，又为什么主要适用于数学、代码等可判定任务。
推理模型训练：o1/R1 范式与长思维链：拆解长思维链如何作为可被强化的行为训出来，让读者看懂推理模型的能力来自训练目标而非仅仅是 Prompt。
过程奖励 PRM vs 结果奖励 ORM：比较对中间步骤打分与只对最终结果打分的取舍，让读者理解过程监督的收益、标注成本与奖励黑客风险。
奖励黑客与对齐税：失效模式与缓解：系统梳理奖励过优化、谄媚、长度膨胀、能力回退等失效模式，让读者掌握监控指标与缓解手段，把”训坏”变成可诊断的问题。

第五部分：训练基础设施与稳定性

RL 训练基础设施：采样-训练分离与 PPO 编排：讲清在线 RL 把推理采样、奖励计算和策略更新编排在一起的工程结构，让读者理解吞吐瓶颈通常在采样而非反向传播。
训练稳定性：KL、熵、长度偏置与崩溃诊断：把 KL 系数、熵、梯度、长度等信号当成后训练的”仪表盘”，让读者学会在崩溃发生前定位原因。
后训练评测：对齐、推理、安全与回归：讨论偏好评测、推理基准、安全测试与能力回归，让读者理解后训练必须同时盯住目标能力提升和非目标能力退化。

第六部分：前沿与展望

前沿与展望：自我对弈、宪法 AI、Agentic RL、合成数据飞轮：回看从 RLHF 到 RLVR 的范式迁移并展望下一轮趋势，让读者抓住模型与方法快速变化背后仍然稳定的后训练原则。

延伸阅读

返回首页 · 归档

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-05-29 · rl-posttraining