【Transformer 与注意力机制】33｜RLHF：从 PPO 到 DPO，再到 GRPO

指令微调解决的是“让模型像个助手说话”，但它解决不了另一个更尖锐的问题：同样都像助手，哪种回答才更符合人的偏好？

举个简单例子。对于同一个问题，模型可能给出两种回答：

A：简洁、准确，但略显生硬；
B：更自然、更周到，但多说了不少废话。

两者都不是“错答案”，但人通常会有明显偏好。监督微调很难表达这种相对偏好，因为它通常只有一个参考答案；而真实世界的对齐问题，很多时候恰恰不是“有没有唯一正确答案”，而是“在多个可行答案里，人更喜欢哪个”。

RLHF（Reinforcement Learning from Human Feedback）就是为这个问题出现的。它的发展主线，大致可以看成三步：

用奖励模型把“人更喜欢哪个”学成可优化信号；
用 PPO 这类强化学习方法直接优化模型策略；
再进一步发展出 DPO、GRPO 这类更省、更稳定或更贴近特定场景的方法。

一、为什么 SFT 不够

要理解 RLHF，先要理解 SFT 的边界。

1.1 SFT 学的是“模仿示范”

SFT 的监督信号一般长这样：

输入：用户问题
输出：理想答案

模型学的是最大化这个答案的 likelihood。问题在于，现实里常常不存在唯一理想答案。

1.2 人类偏好很多时候是相对的，不是绝对的

例如下面两种偏好：

更有帮助但不要太长；
更安全但不要机械拒答；
更诚实地承认不知道；
在多轮对话里保持一致、不跑题。

这些约束很难靠单个 gold answer 讲清楚，但人类很擅长做另一件事：在两个答案之间选一个更好。

RLHF 正是把这个事实利用起来：与其要求标注员写完美答案，不如让他们做 pairwise preference。

二、经典 RLHF：SFT → Reward Model → PPO

OpenAI 的 InstructGPT 把这条流水线做成了经典范式。

2.1 第一步：先做 SFT，得到一个“能像助手说话”的起点

这一步的作用很重要，因为后续偏好优化不能从一个完全不会说人话的 base model 直接开始。SFT 相当于把策略先拉到“至少像个助手”的分布附近。

2.2 第二步：收集偏好对，训练奖励模型

典型做法是：

给同一个 prompt，让当前模型采样多个回答；
人类标注员在这些回答里排序或选出更好的；
用这些 preference data 训练一个 reward model（RM）。

奖励模型的目标不是生成文本，而是给“prompt + answer”打分：

\[ r_\phi(x, y) \]

常见训练方式是 pairwise Bradley-Terry 风格的损失，让优选答案分数更高。

2.3 第三步：用 PPO 直接优化语言模型策略

有了奖励模型之后，就可以把语言模型看成一个策略 \(\pi_\theta(y \mid x)\)，再用 PPO 去最大化期望奖励，同时约束不要偏离原始 SFT 模型太远。

典型目标可以简化理解为：

\[ \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ r_\phi(x, y) - \beta \, \mathrm{KL}(\pi_\theta \,\|\, \pi_{\text{ref}}) \right] \]

其中 \(\pi_{\text{ref}}\) 是参考模型，通常就是 SFT 模型。KL 惩罚项的作用是防止模型为了刷奖励而跑到奇怪分布里去。

2.4 为什么 PPO 在这里有效

因为它特别适合“有个 noisy reward，需要小步更新策略”的情形。语言模型回答空间巨大，reward model 又不是完美真相，PPO 这种保守更新的策略优化器刚好合适。

三、PPO 版 RLHF 解决了什么，也带来了什么代价

经典 RLHF 很强，但也很重。

3.1 它解决了“偏好无法直接监督”的问题

这是最大贡献。通过奖励模型，原本只能靠人主观判断的偏好，被转成了一个可优化的连续信号。模型不再只是模仿参考答案，而是开始优化“更像人喜欢的回答”。

3.2 它让模型学会了很多 SFT 难表达的行为

比如：

更礼貌；
更愿意承认不确定；
更少胡说八道；
更能维持多轮对话风格。

这些行为很多都不是“答案内容本身”的问题，而是整体交互体验的优化。

3.3 但它的代价非常高

PPO 版 RLHF 的成本主要有四块：

要收集大量人类偏好数据；
要单独训练奖励模型；
PPO rollout 很重，训练不稳定；
超参数多，KL、reward scale、采样策略都容易出问题。

对开源社区或中小团队来说，这套流水线太贵了。

3.4 奖励模型还会带来“reward hacking”

一旦模型开始针对 reward model 优化，就可能学会钻奖励模型的漏洞，而不是真正符合人类偏好。比如：

学会套模板骗高分；
变得异常冗长，因为奖励模型误把“更全面”当“更好”；
在某些场景下只学会“看起来谨慎”，并不真的更可靠。

所以 RLHF 不是终点，它本身也会催生新的优化方法。

四、DPO：为什么后来很多人想绕开显式强化学习

Direct Preference Optimization（DPO）火起来，核心原因就是一句话：如果我们最终只有 preference data，能不能直接从偏好数据优化策略，而不必显式训练 reward model + PPO？

4.1 DPO 的核心思路

DPO 证明，在一定假设下，最优策略和最优奖励模型之间存在一个对应关系。于是你可以不用显式地先训奖励模型，再做 RL，而是直接在 preference pair 上训练策略，让它提高优选答案概率、降低劣选答案概率。

直觉上，DPO 在做的事情是：

同一个 prompt 下，
让 chosen answer 的概率比 rejected answer 更高，
同时不要离 reference model 太远。

4.2 它为什么比 PPO 简单得多

因为它省掉了两件最贵的事：

不需要单独训练奖励模型；
不需要在线 rollout + PPO 更新。

这样一来，训练形式重新变得更像普通 supervised learning：给定 preference pairs，直接做优化。

4.3 这不代表 DPO“没有奖励”

很多人误以为 DPO 完全抛弃了奖励视角。更准确的说法是：它把奖励隐含进了 preference loss 里，而不是显式训练一个 reward network 再做 RL。

这也是为什么 DPO 经常被称为“语言模型其实偷偷就是奖励模型”。

4.4 DPO 的局限

DPO 的代价也有：

它仍然依赖高质量 preference pairs；
对 reference model 的选择比较敏感；
它直接优化的是 pairwise 偏好，不一定覆盖复杂长期交互行为；
有些场景更适合显式 rollout 与环境反馈。

所以它不是 RLHF 的“真理终点”，而是大幅降低门槛的一次重构。

五、GRPO：为什么它在推理和可验证奖励场景里变热

再往后，社区开始越来越重视一类场景：答案有可验证 reward，比如数学题、代码题、规则清晰的 reasoning 任务。在这些地方，人类偏好不是唯一信号，甚至不是最强信号。

GRPO（Group Relative Policy Optimization）就是在这个背景下火起来的。

5.1 它不再执着于“单个答案的绝对分值”

GRPO 的核心直觉是：对于同一个问题，采样一组答案出来，让它们在组内相互比较，再根据相对表现更新策略。

这意味着：

不一定需要单独训练一个 value model；
advantage 可以在组内标准化；
更适合“同题多样采样、结果可验证”的场景。

5.2 它特别适合 reasoning / verifiable reward

如果你能用程序验证答案对不对，比如：

数学最终结果；
单元测试是否通过；
规则任务是否满足约束；

那组内相对奖励就非常自然。模型不一定需要人类对每个答案做细粒度偏好标注，也不一定需要一个单独 reward model 去学人类偏好。

5.3 它和 DPO 不在完全同一条线上

虽然常被讲成“PPO → DPO → GRPO”的演化，但更准确地说：

PPO 是经典 RLHF / RLAIF 的通用策略优化器；
DPO 是在 preference data 上绕开 RL 的直接优化；
GRPO 更像是在可验证奖励场景下，对 PPO 类方法做了更便宜、更稳的群体相对化改造。

它们解决的问题有重叠，但不完全相同。

六、从 PPO 到 DPO / GRPO，背后的主线其实是“降低对齐成本”

如果把这些方法放在一起看，会发现共同趋势很清楚。

6.1 成本在下降

PPO 版 RLHF：最完整，也最贵；
DPO：省掉 reward model 和在线 RL；
GRPO：在某些场景里进一步降低价值估计与优化成本。

6.2 监督信号在变化

早期更依赖人类偏好标注；
后来越来越多用 AI feedback、程序可验证反馈；
某些场景甚至用规则、单元测试、形式验证来替代人工偏好。

6.3 目标也更细分了

不是所有对齐问题都要用同一种方法：

聊天助手偏好：DPO / RLHF 常见；
数学与代码 reasoning：GRPO / verifiable reward 更常见；
安全对齐：有时还要专门的拒答与策略训练。

所以今天谈 RLHF，最好把它理解成一个方法族，而不是单指“奖励模型 + PPO”那一条固定流水线。

七、几个常见误解

7.1 “RLHF 就是强化学习给模型提分”

太浅了。它真正解决的是“如何把人类偏好变成优化信号”，强化学习只是其中一类实现方式。

7.2 “有了 SFT 就不需要 RLHF / DPO 了”

SFT 解决的是模仿示范；偏好优化解决的是在多个可行答案中把人更喜欢的那些推上来。两者不是替代关系。

7.3 “DPO 完全取代了 PPO”

不对。DPO 在很多偏好训练场景里更省更稳，但并不是所有问题都能直接化成 preference pairs。涉及环境交互、可验证多步推理时，PPO 类或 GRPO 类方法仍然有空间。

7.4 “GRPO 就是 DPO 的升级版”

也不准确。GRPO 更偏向策略优化与相对奖励建模，常见于 reasoning / verifiable reward 场景；DPO 则更像 preference pair 上的直接优化。

7.5 “偏好优化一定让模型更真实”

不一定。它可能让模型更符合某种偏好分布，也可能诱导 reward hacking、过度礼貌、模板化、保守化。对齐从来不是白拿的。

八、结语

RLHF 这条线真正重要的地方，不在于它给语言模型套上了“强化学习”这层时髦外衣，而在于它第一次系统地回答了一个产品层面的问题：当正确答案不唯一时，怎样把“人更喜欢哪种回答”这件事写进训练目标。 经典 PPO 版 RLHF 给出了完整但昂贵的答案；DPO 用更便宜的方式把偏好直接写进优化；GRPO 则在 reasoning 和可验证奖励场景里继续把成本往下压。

有了这条对齐线，模型才真正从“会说”开始走向“更像你想要它那样说”。下一篇我们把视角再拉大一点，看支撑这一切规模化演化的另一条总规律：Scaling Laws。

九、参考文献

Ouyang, L. et al. “Training language models to follow instructions with human feedback.” NeurIPS 2022. 经典 RLHF 流水线代表。
Schulman, J. et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347, 2017. PPO 原始论文。
Rafailov, R. et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” NeurIPS 2023. DPO 原始论文。
Bai, Y. et al. “Constitutional AI: Harmlessness from AI Feedback.” arXiv:2212.08073, 2022. 偏好优化与 AI feedback 路线的重要工作。
Shao, Z. et al. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300, 2024. GRPO 的代表性应用。

← 上一篇：32｜指令微调　|　下一篇：34｜Scaling Laws →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / ai-infra

Transformer系列导航

文章导航

目录