土法炼钢兴趣小组的算法知识备份

【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测

文章导航

分类入口
rl-posttraining
标签入口
#post-training#sft#reward-model#rlhf#dpo#grpo#rlvr#evaluation#data-flywheel

目录

很多人把后训练理解成“拿指令数据微调一下”。 这会漏掉最重要的系统事实:后训练不是单个脚本,而是一条不断采样、标注、优化、评测、回流的数据流水线。

这篇文章先给出从 base model 到 release model 的完整图,再分别解释 SFT、偏好数据、奖励模型、在线 RL、离线偏好优化、可验证奖励和评测各自改变了什么。 它只做全景,不展开每个算法的推导;后续第 07 到第 13 篇会逐层拆开。

一、后训练是系统,不是脚本

预训练模型学到的是互联网语料上的下一个 token 分布。 它可能会续写、解释、反问,也可能拒绝按人类期望的格式回答。 后训练把这个通用分布改造成面向指令、偏好、安全和任务正确性的行为分布。

阶段 输入 目标 主要产物
Base / pretrained 大规模无标注语料 下一个 token 预测 通用语言与知识能力
SFT 指令与优质回答 模仿人类或教师答案 会遵循指令的初始策略
Preference / RM 同一 prompt 的回答对与偏好 学习人类相对偏好 奖励模型或偏好数据集
Policy optimization 采样回答、奖励、参考模型 提高偏好分数并控制 KL RLHF/DPO/GRPO 后的策略
Evaluation / release 基准、红队、回归集 筛掉退化和风险 可发布模型与数据回流
flowchart LR
    A[Base model] --> B[SFT 指令微调]
    B --> C[采样候选回答]
    C --> D[偏好标注]
    D --> E[奖励模型 RM]
    E --> F[RLHF / PPO / GRPO]
    D --> G[DPO 等离线偏好优化]
    F --> H[评测与红队]
    G --> H
    H --> I[发布模型]
    H --> J[失败样本回流]
    J --> B
    J --> D

二、每个阶段到底改变什么

SFT 主要改变回答格式和指令遵循方式。 它把“看到指令后继续写任何相关文本”的预训练模型,拉到“给出一个像助手的回答”的分布上。

奖励模型改变的是训练信号。 它不直接发布给用户,而是把偏好数据压缩成一个可对任意候选回答打分的代理目标。

策略优化改变的是模型在自己采样分布上的行为。 它让模型不只模仿静态正例,而是在生成多个候选、比较优劣、更新策略的闭环中移动。

评测改变的是发布决策。 没有评测,后训练只是在优化一个局部代理目标;有评测,团队才能知道偏好提升是否以推理、安全或事实性退化为代价。

三、为什么 SFT 不够

四、三条优化路线的高层对比

路线 数据形态 是否在线采样 代表方法 后续展开
在线 RL 当前策略生成回答并打分 PPO、GRPO 09、12
离线偏好优化 固定偏好对 DPO、IPO、KTO、ORPO、SimPO 10、11
可验证奖励 答案可自动判对错 通常是 RLVR、R1 风格训练 13、14

在线 RL 的优点是能在当前策略分布上探索,缺点是采样、奖励和训练编排复杂。 DPO 类方法的优点是稳定、简单、便宜,缺点是受离线偏好数据覆盖范围限制。 RLVR 的优点是奖励更硬,缺点是任务必须可验证。

五、真实配方给出的共同结构

InstructGPT 把 SFT、奖励模型和 PPO 组合成主流 RLHF 范式。 论文报告显示,人类偏好评测中较小的 RLHF 模型可以超过更大的纯预训练模型,但这个结论依赖其任务、数据和评测设置。

Llama 2 公开报告了 SFT、奖励模型、RLHF、拒答安全数据和人工评测组成的后训练流程。 它说明开源基础模型进入聊天场景时,后训练不是附属步骤,而是产品化能力的一部分。

Tülu 3 把开放数据、SFT、偏好训练、可验证任务和评测做成可复现配方。 它的价值在于把闭源对齐流程中常被省略的数据与训练细节尽量公开。

DeepSeek-R1 报告的路线突出 RLVR 和长思维链推理。 它把“后训练用于风格对齐”的印象推进到“后训练可直接塑造推理行为”的阶段。

六、系统核对清单

1. 数据版本

2. 模板一致性

3. 采样策略

4. 偏好标注

5. 奖励模型

6. 参考模型

7. 评测分层

8. 发布门禁

9. 数据飞轮

10. 算法选择

11. 安全数据

12. 能力保持

13. 成本模型

14. 可观测性

15. 人工与自动

七、如何阅读后续篇章

第 07 篇讲 SFT,把指令数据、模板、loss mask 和过拟合控制讲清楚。 第 08 篇讲奖励模型,从 Bradley-Terry 偏好损失讲到 Goodhart 和奖励黑客。 第 09 篇把 RM、PPO、reference KL 串成 RLHF 全链路。

第 10 和第 11 篇讨论 DPO 与免 RL 对齐路线。 第 12 篇讨论 GRPO 为什么能去掉 critic。 第 13 篇讨论 RLVR 如何用可验证奖励训练推理能力。

八、阶段交接清单

1. 阶段边界

2. 数据回流

3. SFT 覆盖

4. 偏好覆盖

5. DPO 适用性

6. RLVR 适用性

7. 安全门禁

8. 能力保持

9. 模板版本

10. 评测盲区

11. 成本预算

12. 发布回滚

13. 人评一致性

14. 多目标冲突

15. 开放报告阅读

16. 工具调用数据

17. 长上下文

18. 多语言

19. 去重污染

20. 持续监控

21. 奖励版本

22. 候选池更新

23. 标注预算

24. 拒答边界

25. 产品提示词

26. 多模型比较

27. 数据许可证

28. 隐私过滤

29. 失败分类

30. 灰度发布

31. 文档记录

32. 跨篇衔接

九、参考资料

← 上一篇:05|PPO 深度解剖 | 下一篇:07|监督微调(SFT)

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-05-29 · rl-posttraining

强化学习与大模型后训练

从 MDP、策略梯度、PPO 等强化学习最小必要集出发,系统讲清现代大模型后训练:SFT、奖励模型、RLHF,到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO,再到 RLVR 可验证奖励、推理模型(o1/R1 范式)、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。


By .