指令微调解决的是“让模型像个助手说话”,但它解决不了另一个更尖锐的问题:同样都像助手,哪种回答才更符合人的偏好?
举个简单例子。对于同一个问题,模型可能给出两种回答:
- A:简洁、准确,但略显生硬;
- B:更自然、更周到,但多说了不少废话。
两者都不是“错答案”,但人通常会有明显偏好。监督微调很难表达这种相对偏好,因为它通常只有一个参考答案;而真实世界的对齐问题,很多时候恰恰不是“有没有唯一正确答案”,而是“在多个可行答案里,人更喜欢哪个”。
RLHF(Reinforcement Learning from Human Feedback)就是为这个问题出现的。它的发展主线,大致可以看成三步:
- 用奖励模型把“人更喜欢哪个”学成可优化信号;
- 用 PPO 这类强化学习方法直接优化模型策略;
- 再进一步发展出 DPO、GRPO 这类更省、更稳定或更贴近特定场景的方法。
一、为什么 SFT 不够
要理解 RLHF,先要理解 SFT 的边界。
1.1 SFT 学的是“模仿示范”
SFT 的监督信号一般长这样:
输入:用户问题
输出:理想答案
模型学的是最大化这个答案的 likelihood。问题在于,现实里常常不存在唯一理想答案。
1.2 人类偏好很多时候是相对的,不是绝对的
例如下面两种偏好:
- 更有帮助但不要太长;
- 更安全但不要机械拒答;
- 更诚实地承认不知道;
- 在多轮对话里保持一致、不跑题。
这些约束很难靠单个 gold answer 讲清楚,但人类很擅长做另一件事:在两个答案之间选一个更好。
RLHF 正是把这个事实利用起来:与其要求标注员写完美答案,不如让他们做 pairwise preference。
二、经典 RLHF:SFT → Reward Model → PPO
OpenAI 的 InstructGPT 把这条流水线做成了经典范式。
2.1 第一步:先做 SFT,得到一个“能像助手说话”的起点
这一步的作用很重要,因为后续偏好优化不能从一个完全不会说人话的 base model 直接开始。SFT 相当于把策略先拉到“至少像个助手”的分布附近。
2.2 第二步:收集偏好对,训练奖励模型
典型做法是:
- 给同一个 prompt,让当前模型采样多个回答;
- 人类标注员在这些回答里排序或选出更好的;
- 用这些 preference data 训练一个 reward model(RM)。
奖励模型的目标不是生成文本,而是给“prompt + answer”打分:
\[ r_\phi(x, y) \]
常见训练方式是 pairwise Bradley-Terry 风格的损失,让优选答案分数更高。
2.3 第三步:用 PPO 直接优化语言模型策略
有了奖励模型之后,就可以把语言模型看成一个策略 \(\pi_\theta(y \mid x)\),再用 PPO 去最大化期望奖励,同时约束不要偏离原始 SFT 模型太远。
典型目标可以简化理解为:
\[ \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ r_\phi(x, y) - \beta \, \mathrm{KL}(\pi_\theta \,\|\, \pi_{\text{ref}}) \right] \]
其中 \(\pi_{\text{ref}}\) 是参考模型,通常就是 SFT 模型。KL 惩罚项的作用是防止模型为了刷奖励而跑到奇怪分布里去。
2.4 为什么 PPO 在这里有效
因为它特别适合“有个 noisy reward,需要小步更新策略”的情形。语言模型回答空间巨大,reward model 又不是完美真相,PPO 这种保守更新的策略优化器刚好合适。
三、PPO 版 RLHF 解决了什么,也带来了什么代价
经典 RLHF 很强,但也很重。
3.1 它解决了“偏好无法直接监督”的问题
这是最大贡献。通过奖励模型,原本只能靠人主观判断的偏好,被转成了一个可优化的连续信号。模型不再只是模仿参考答案,而是开始优化“更像人喜欢的回答”。
3.2 它让模型学会了很多 SFT 难表达的行为
比如:
- 更礼貌;
- 更愿意承认不确定;
- 更少胡说八道;
- 更能维持多轮对话风格。
这些行为很多都不是“答案内容本身”的问题,而是整体交互体验的优化。
3.3 但它的代价非常高
PPO 版 RLHF 的成本主要有四块:
- 要收集大量人类偏好数据;
- 要单独训练奖励模型;
- PPO rollout 很重,训练不稳定;
- 超参数多,KL、reward scale、采样策略都容易出问题。
对开源社区或中小团队来说,这套流水线太贵了。
3.4 奖励模型还会带来“reward hacking”
一旦模型开始针对 reward model 优化,就可能学会钻奖励模型的漏洞,而不是真正符合人类偏好。比如:
- 学会套模板骗高分;
- 变得异常冗长,因为奖励模型误把“更全面”当“更好”;
- 在某些场景下只学会“看起来谨慎”,并不真的更可靠。
所以 RLHF 不是终点,它本身也会催生新的优化方法。
四、DPO:为什么后来很多人想绕开显式强化学习
Direct Preference Optimization(DPO)火起来,核心原因就是一句话:如果我们最终只有 preference data,能不能直接从偏好数据优化策略,而不必显式训练 reward model + PPO?
4.1 DPO 的核心思路
DPO 证明,在一定假设下,最优策略和最优奖励模型之间存在一个对应关系。于是你可以不用显式地先训奖励模型,再做 RL,而是直接在 preference pair 上训练策略,让它提高优选答案概率、降低劣选答案概率。
直觉上,DPO 在做的事情是:
同一个 prompt 下,
让 chosen answer 的概率比 rejected answer 更高,
同时不要离 reference model 太远。
4.2 它为什么比 PPO 简单得多
因为它省掉了两件最贵的事:
- 不需要单独训练奖励模型;
- 不需要在线 rollout + PPO 更新。
这样一来,训练形式重新变得更像普通 supervised learning:给定 preference pairs,直接做优化。
4.3 这不代表 DPO“没有奖励”
很多人误以为 DPO 完全抛弃了奖励视角。更准确的说法是:它把奖励隐含进了 preference loss 里,而不是显式训练一个 reward network 再做 RL。
这也是为什么 DPO 经常被称为“语言模型其实偷偷就是奖励模型”。
4.4 DPO 的局限
DPO 的代价也有:
- 它仍然依赖高质量 preference pairs;
- 对 reference model 的选择比较敏感;
- 它直接优化的是 pairwise 偏好,不一定覆盖复杂长期交互行为;
- 有些场景更适合显式 rollout 与环境反馈。
所以它不是 RLHF 的“真理终点”,而是大幅降低门槛的一次重构。
五、GRPO:为什么它在推理和可验证奖励场景里变热
再往后,社区开始越来越重视一类场景:答案有可验证 reward,比如数学题、代码题、规则清晰的 reasoning 任务。在这些地方,人类偏好不是唯一信号,甚至不是最强信号。
GRPO(Group Relative Policy Optimization)就是在这个背景下火起来的。
5.1 它不再执着于“单个答案的绝对分值”
GRPO 的核心直觉是:对于同一个问题,采样一组答案出来,让它们在组内相互比较,再根据相对表现更新策略。
这意味着:
- 不一定需要单独训练一个 value model;
- advantage 可以在组内标准化;
- 更适合“同题多样采样、结果可验证”的场景。
5.2 它特别适合 reasoning / verifiable reward
如果你能用程序验证答案对不对,比如:
- 数学最终结果;
- 单元测试是否通过;
- 规则任务是否满足约束;
那组内相对奖励就非常自然。模型不一定需要人类对每个答案做细粒度偏好标注,也不一定需要一个单独 reward model 去学人类偏好。
5.3 它和 DPO 不在完全同一条线上
虽然常被讲成“PPO → DPO → GRPO”的演化,但更准确地说:
- PPO 是经典 RLHF / RLAIF 的通用策略优化器;
- DPO 是在 preference data 上绕开 RL 的直接优化;
- GRPO 更像是在可验证奖励场景下,对 PPO 类方法做了更便宜、更稳的群体相对化改造。
它们解决的问题有重叠,但不完全相同。
六、从 PPO 到 DPO / GRPO,背后的主线其实是“降低对齐成本”
如果把这些方法放在一起看,会发现共同趋势很清楚。
6.1 成本在下降
- PPO 版 RLHF:最完整,也最贵;
- DPO:省掉 reward model 和在线 RL;
- GRPO:在某些场景里进一步降低价值估计与优化成本。
6.2 监督信号在变化
- 早期更依赖人类偏好标注;
- 后来越来越多用 AI feedback、程序可验证反馈;
- 某些场景甚至用规则、单元测试、形式验证来替代人工偏好。
6.3 目标也更细分了
不是所有对齐问题都要用同一种方法:
- 聊天助手偏好:DPO / RLHF 常见;
- 数学与代码 reasoning:GRPO / verifiable reward 更常见;
- 安全对齐:有时还要专门的拒答与策略训练。
所以今天谈 RLHF,最好把它理解成一个方法族,而不是单指“奖励模型 + PPO”那一条固定流水线。
七、几个常见误解
7.1 “RLHF 就是强化学习给模型提分”
太浅了。它真正解决的是“如何把人类偏好变成优化信号”,强化学习只是其中一类实现方式。
7.2 “有了 SFT 就不需要 RLHF / DPO 了”
SFT 解决的是模仿示范;偏好优化解决的是在多个可行答案中把人更喜欢的那些推上来。两者不是替代关系。
7.3 “DPO 完全取代了 PPO”
不对。DPO 在很多偏好训练场景里更省更稳,但并不是所有问题都能直接化成 preference pairs。涉及环境交互、可验证多步推理时,PPO 类或 GRPO 类方法仍然有空间。
7.4 “GRPO 就是 DPO 的升级版”
也不准确。GRPO 更偏向策略优化与相对奖励建模,常见于 reasoning / verifiable reward 场景;DPO 则更像 preference pair 上的直接优化。
7.5 “偏好优化一定让模型更真实”
不一定。它可能让模型更符合某种偏好分布,也可能诱导 reward hacking、过度礼貌、模板化、保守化。对齐从来不是白拿的。
八、结语
RLHF 这条线真正重要的地方,不在于它给语言模型套上了“强化学习”这层时髦外衣,而在于它第一次系统地回答了一个产品层面的问题:当正确答案不唯一时,怎样把“人更喜欢哪种回答”这件事写进训练目标。 经典 PPO 版 RLHF 给出了完整但昂贵的答案;DPO 用更便宜的方式把偏好直接写进优化;GRPO 则在 reasoning 和可验证奖励场景里继续把成本往下压。
有了这条对齐线,模型才真正从“会说”开始走向“更像你想要它那样说”。下一篇我们把视角再拉大一点,看支撑这一切规模化演化的另一条总规律:Scaling Laws。
九、参考文献
- Ouyang, L. et al. “Training language models to follow instructions with human feedback.” NeurIPS 2022. 经典 RLHF 流水线代表。
- Schulman, J. et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347, 2017. PPO 原始论文。
- Rafailov, R. et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” NeurIPS 2023. DPO 原始论文。
- Bai, Y. et al. “Constitutional AI: Harmlessness from AI Feedback.” arXiv:2212.08073, 2022. 偏好优化与 AI feedback 路线的重要工作。
- Shao, Z. et al. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300, 2024. GRPO 的代表性应用。
← 上一篇:32|指令微调 | 下一篇:34|Scaling Laws →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【大模型基础设施工程】09:RLHF 与对齐流水线
从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践,覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。