预训练决定了模型”知道什么”,后训练决定了模型”愿意怎么用”。从 InstructGPT 把 RLHF 带进主流,到 DPO 用一个分类损失绕开在线 RL,再到 2024–2025 年 DeepSeek-R1、OpenAI o 系列用可验证奖励(RLVR)把”长思维链推理”训出来,后训练已经从”对齐礼貌”演变成”训练能力”的核心环节。但这条线索散落在几十篇论文里:策略梯度、PPO 的实现陷阱、奖励模型的偏好建模、DPO 家族的取舍、GRPO 去掉 Critic 的动机、过程奖励与结果奖励之争、奖励黑客与对齐税——很少有资料把它们从第一性原理串成一条工程路线。
这个系列就是要把这条路线讲清楚:先补齐为 LLM 服务的最小必要 RL 基础,再沿 SFT → 奖励模型 → RLHF → 免 RL 对齐 → 可验证奖励与推理模型 → 基础设施与评测 逐层展开。既讲原理推导(为什么是 PPO 的裁剪目标、为什么 DPO 等价于隐式奖励),也讲工程细节(KL 系数、长度偏置、采样-训练编排、训练崩溃诊断)。
本系列为工程与原理参考。所有公式按推导给出,涉及具体方法时标注论文与版本边界;不编造 benchmark 数字。
推荐入口(最常被点开的 4 篇)
- PPO 深度解剖:理解后训练里几乎所有在线 RL 方法的共同地基——裁剪目标、KL 约束与实现陷阱。
- DPO:把 RLHF 变成一个分类损失:看清为什么可以绕开奖励模型和在线采样直接对齐。
- GRPO:去掉 Critic 的组相对策略优化:DeepSeek 把 PPO 简化成什么、省了什么、又付出什么代价。
- RLVR:可验证奖励如何训练推理能力:2024–2026 推理模型浪潮背后最关键的训练范式转变。
一、这个系列要回答的五个问题
- 后训练到底改变了模型的什么?为什么”对齐”和”提升能力”是两回事又彼此纠缠?
- 回答思路:从预训练目标(下一个 token 似然)与人类偏好/任务正确性目标的错配讲起,区分”风格对齐”和”能力激发”两类后训练,再说明 SFT、RLHF、RLVR 各自动了哪一层。详见 06、07、13、14 篇。
- 既然有 SFT,为什么还需要 RL?RLHF 相比 SFT
多解决了什么问题?
- 回答思路:SFT 只能模仿正例,无法利用”哪个更差”的信号,也容易过拟合标注分布;偏好学习与策略优化引入相对偏好和探索。详见 07、08、09 篇。
- PPO、DPO、GRPO
到底什么关系?什么时候该用哪个?
- 回答思路:PPO 是在线策略优化的通用框架,DPO 用偏好数据推导出隐式奖励、把在线 RL 变成离线分类,GRPO 保留在线采样但用组内相对优势去掉 Critic。三者在数据形态、稳定性、成本上各有取舍。详见 05、09、10、12 篇。
- 可验证奖励(RLVR)为什么能训出推理能力?它和传统
RLHF 的本质差异在哪?
- 回答思路:RLHF 的奖励来自学到的偏好模型(可被 hack),RLVR 的奖励来自规则可验证的正确性信号(数学/代码),结合大规模采样与策略优化,把”长思维链”作为可被强化的行为训出来。详见 13、14、15 篇。
- 后训练为什么这么容易”训坏”?崩溃、奖励黑客、对齐税从哪来,怎么诊断?
- 回答思路:从奖励模型过优化、KL 失控、熵塌缩、长度偏置、分布漂移等失效模式入手,给出监控指标与缓解手段。详见 08、16、18、19 篇。
二、适合谁看
- 对齐 / 后训练工程师:SFT、奖励模型、RLHF、DPO 家族、GRPO 的取舍与实现。
- 做推理模型的研究员 / 工程师:RLVR、过程奖励、长思维链训练。
- 训练基础设施 / 平台工程师:采样-训练分离、PPO 编排、训练稳定性与评测。
- 想补 RL 基础的 LLM 工程师:第一部分用最小必要集把 MDP、策略梯度、PPO 讲顺。
三、推荐阅读路径
- 零 RL 基础补课 → 02 → 03 → 04 → 05
- 后训练主线(最短路径) → 06 → 07 → 08 → 09 → 10 → 12
- 免 RL 对齐路线 → 08 → 10 → 11
- 推理模型路线 → 05 → 12 → 13 → 14 → 15
- 工程落地路线 → 09 → 16 → 17 → 18 → 19
四、篇目依赖关系
[01 总览]
│
▼
[02 MDP] → [03 策略梯度] → [04 Actor-Critic/GAE] → [05 PPO]
│ │
▼ ▼
[06 后训练全景] → [07 SFT] → [08 奖励模型] ───────► [09 RLHF/PPO]
│ │
▼ ▼
[10 DPO] → [11 DPO 家族] [12 GRPO]
│
▼
[13 RLVR] → [14 推理模型] → [15 过程奖励]
│
▼
[16 奖励黑客] ─┬─► [17 RL 基础设施] ─► [18 稳定性] ─► [19 评测]
│
▼
[20 前沿与展望]
五、目录
每篇条目后的一句话,说明这篇文章真正想表达的东西,以及读者最值得带走的核心知识。
第一部分:强化学习基础(为 LLM 服务的最小必要集)
- 系列总览:从 RL 到 LLM 后训练的地图:建立”预训练 / SFT / 奖励建模 / 策略优化 / 评测”五个环节的地图,让读者先知道每篇文章解决整条后训练链路上的哪一步。
- MDP、回报与贝尔曼方程:用最小必要集讲清状态、动作、回报、价值与贝尔曼方程,让读者理解把”生成一句话”建模成序列决策意味着什么。
- 策略梯度与 REINFORCE:从最大化期望回报推导策略梯度,让读者看懂为什么可以直接对”采样出来的句子”求梯度,以及方差从哪来。
- Actor-Critic 与优势函数、GAE:引入基线、优势函数与 GAE,让读者理解降方差是让策略梯度在 LLM 上可用的关键工程手段。
- PPO 深度解剖:裁剪目标、KL 约束与实现陷阱:拆解 PPO 的裁剪目标和信任域思想,让读者掌握后训练里几乎所有在线 RL 方法共享的稳定性地基与常见实现坑。
第二部分:从预训练到对齐——后训练全景
- 后训练全景:SFT → RM → RLHF → 评测:串联现代后训练各阶段,让读者看清后训练是数据、目标函数、采样和评测组成的流水线,而非一次微调脚本。
- 监督微调(SFT):指令数据、模板与训练细节:讲清指令数据构造、对话模板、loss mask 与过拟合控制,让读者理解 SFT 既是后训练起点,也是后续 RL 的策略初始化。
- 奖励模型:偏好数据、Bradley-Terry 与奖励黑客:从成对偏好与 Bradley-Terry 建模讲到奖励模型的过优化,让读者明白奖励信号的质量直接决定 RLHF 的上限和失效方式。
第三部分:RLHF 与免 RL 的对齐方法
- RLHF 全链路:用 PPO 对齐语言模型:把 SFT、奖励模型、PPO 与参考模型 KL 约束串成完整对齐流水线,让读者理解 RLHF 的工程复杂度集中在采样、奖励和稳定性。
- DPO:把 RLHF 变成一个分类损失:推导 DPO 如何从 RLHF 目标导出隐式奖励,让读者看懂它如何用离线偏好数据绕开奖励模型与在线采样,以及代价是什么。
- DPO 家族:IPO、KTO、ORPO、SimPO 的取舍:对比 DPO 的主要变体在数据形态、参考模型、长度偏置上的差异,让读者学会按数据条件和稳定性需求选方法。
- GRPO:去掉 Critic 的组相对策略优化:解释 GRPO 如何用组内相对优势替代价值网络,让读者理解它在保留在线探索的同时降低显存与工程复杂度的取舍。
第四部分:推理模型与可验证奖励
- RLVR:可验证奖励如何训练推理能力:讲清以规则可验证的正确性为奖励的训练范式,让读者理解 RLVR 为什么比偏好奖励更难被 hack,又为什么主要适用于数学、代码等可判定任务。
- 推理模型训练:o1/R1 范式与长思维链:拆解长思维链如何作为可被强化的行为训出来,让读者看懂推理模型的能力来自训练目标而非仅仅是 Prompt。
- 过程奖励 PRM vs 结果奖励 ORM:比较对中间步骤打分与只对最终结果打分的取舍,让读者理解过程监督的收益、标注成本与奖励黑客风险。
- 奖励黑客与对齐税:失效模式与缓解:系统梳理奖励过优化、谄媚、长度膨胀、能力回退等失效模式,让读者掌握监控指标与缓解手段,把”训坏”变成可诊断的问题。
第五部分:训练基础设施与稳定性
- RL 训练基础设施:采样-训练分离与 PPO 编排:讲清在线 RL 把推理采样、奖励计算和策略更新编排在一起的工程结构,让读者理解吞吐瓶颈通常在采样而非反向传播。
- 训练稳定性:KL、熵、长度偏置与崩溃诊断:把 KL 系数、熵、梯度、长度等信号当成后训练的”仪表盘”,让读者学会在崩溃发生前定位原因。
- 后训练评测:对齐、推理、安全与回归:讨论偏好评测、推理基准、安全测试与能力回归,让读者理解后训练必须同时盯住目标能力提升和非目标能力退化。
第六部分:前沿与展望
- 前沿与展望:自我对弈、宪法 AI、Agentic RL、合成数据飞轮:回看从 RLHF 到 RLVR 的范式迁移并展望下一轮趋势,让读者抓住模型与方法快速变化背后仍然稳定的后训练原则。
延伸阅读
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图
把强化学习到大模型后训练的主线压成一张可阅读地图,区分风格对齐与能力激发,并说明 20 篇文章的依赖关系。
【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测
把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线,说明每一阶段改变模型的哪一部分。
【强化学习与大模型后训练】12|GRPO:去掉 Critic 的组相对策略优化
解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic,保留 PPO 式裁剪与 KL 约束,并分析 DeepSeek-R1 语境下的收益和偏置。
【大模型基础设施工程】09:RLHF 与对齐流水线
从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践,覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。