土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】33|RLHF:从 PPO 到 DPO,再到 GRPO

文章导航

分类入口
transformer
标签入口
#transformer#rlhf#ppo#dpo#grpo

目录

指令微调解决的是“让模型像个助手说话”,但它解决不了另一个更尖锐的问题:同样都像助手,哪种回答才更符合人的偏好?

举个简单例子。对于同一个问题,模型可能给出两种回答:

两者都不是“错答案”,但人通常会有明显偏好。监督微调很难表达这种相对偏好,因为它通常只有一个参考答案;而真实世界的对齐问题,很多时候恰恰不是“有没有唯一正确答案”,而是“在多个可行答案里,人更喜欢哪个”。

RLHF(Reinforcement Learning from Human Feedback)就是为这个问题出现的。它的发展主线,大致可以看成三步:

  1. 用奖励模型把“人更喜欢哪个”学成可优化信号;
  2. 用 PPO 这类强化学习方法直接优化模型策略;
  3. 再进一步发展出 DPO、GRPO 这类更省、更稳定或更贴近特定场景的方法。

一、为什么 SFT 不够

要理解 RLHF,先要理解 SFT 的边界。

1.1 SFT 学的是“模仿示范”

SFT 的监督信号一般长这样:

输入:用户问题
输出:理想答案

模型学的是最大化这个答案的 likelihood。问题在于,现实里常常不存在唯一理想答案。

1.2 人类偏好很多时候是相对的,不是绝对的

例如下面两种偏好:

这些约束很难靠单个 gold answer 讲清楚,但人类很擅长做另一件事:在两个答案之间选一个更好

RLHF 正是把这个事实利用起来:与其要求标注员写完美答案,不如让他们做 pairwise preference。


二、经典 RLHF:SFT → Reward Model → PPO

OpenAI 的 InstructGPT 把这条流水线做成了经典范式。

2.1 第一步:先做 SFT,得到一个“能像助手说话”的起点

这一步的作用很重要,因为后续偏好优化不能从一个完全不会说人话的 base model 直接开始。SFT 相当于把策略先拉到“至少像个助手”的分布附近。

2.2 第二步:收集偏好对,训练奖励模型

典型做法是:

  1. 给同一个 prompt,让当前模型采样多个回答;
  2. 人类标注员在这些回答里排序或选出更好的;
  3. 用这些 preference data 训练一个 reward model(RM)。

奖励模型的目标不是生成文本,而是给“prompt + answer”打分:

\[ r_\phi(x, y) \]

常见训练方式是 pairwise Bradley-Terry 风格的损失,让优选答案分数更高。

2.3 第三步:用 PPO 直接优化语言模型策略

有了奖励模型之后,就可以把语言模型看成一个策略 \(\pi_\theta(y \mid x)\),再用 PPO 去最大化期望奖励,同时约束不要偏离原始 SFT 模型太远。

典型目标可以简化理解为:

\[ \mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ r_\phi(x, y) - \beta \, \mathrm{KL}(\pi_\theta \,\|\, \pi_{\text{ref}}) \right] \]

其中 \(\pi_{\text{ref}}\) 是参考模型,通常就是 SFT 模型。KL 惩罚项的作用是防止模型为了刷奖励而跑到奇怪分布里去。

2.4 为什么 PPO 在这里有效

因为它特别适合“有个 noisy reward,需要小步更新策略”的情形。语言模型回答空间巨大,reward model 又不是完美真相,PPO 这种保守更新的策略优化器刚好合适。


三、PPO 版 RLHF 解决了什么,也带来了什么代价

经典 RLHF 很强,但也很重。

3.1 它解决了“偏好无法直接监督”的问题

这是最大贡献。通过奖励模型,原本只能靠人主观判断的偏好,被转成了一个可优化的连续信号。模型不再只是模仿参考答案,而是开始优化“更像人喜欢的回答”。

3.2 它让模型学会了很多 SFT 难表达的行为

比如:

这些行为很多都不是“答案内容本身”的问题,而是整体交互体验的优化。

3.3 但它的代价非常高

PPO 版 RLHF 的成本主要有四块:

  1. 要收集大量人类偏好数据;
  2. 要单独训练奖励模型;
  3. PPO rollout 很重,训练不稳定;
  4. 超参数多,KL、reward scale、采样策略都容易出问题。

对开源社区或中小团队来说,这套流水线太贵了。

3.4 奖励模型还会带来“reward hacking”

一旦模型开始针对 reward model 优化,就可能学会钻奖励模型的漏洞,而不是真正符合人类偏好。比如:

所以 RLHF 不是终点,它本身也会催生新的优化方法。


四、DPO:为什么后来很多人想绕开显式强化学习

Direct Preference Optimization(DPO)火起来,核心原因就是一句话:如果我们最终只有 preference data,能不能直接从偏好数据优化策略,而不必显式训练 reward model + PPO?

4.1 DPO 的核心思路

DPO 证明,在一定假设下,最优策略和最优奖励模型之间存在一个对应关系。于是你可以不用显式地先训奖励模型,再做 RL,而是直接在 preference pair 上训练策略,让它提高优选答案概率、降低劣选答案概率。

直觉上,DPO 在做的事情是:

同一个 prompt 下,
让 chosen answer 的概率比 rejected answer 更高,
同时不要离 reference model 太远。

4.2 它为什么比 PPO 简单得多

因为它省掉了两件最贵的事:

  1. 不需要单独训练奖励模型;
  2. 不需要在线 rollout + PPO 更新。

这样一来,训练形式重新变得更像普通 supervised learning:给定 preference pairs,直接做优化。

4.3 这不代表 DPO“没有奖励”

很多人误以为 DPO 完全抛弃了奖励视角。更准确的说法是:它把奖励隐含进了 preference loss 里,而不是显式训练一个 reward network 再做 RL。

这也是为什么 DPO 经常被称为“语言模型其实偷偷就是奖励模型”。

4.4 DPO 的局限

DPO 的代价也有:

所以它不是 RLHF 的“真理终点”,而是大幅降低门槛的一次重构。


五、GRPO:为什么它在推理和可验证奖励场景里变热

再往后,社区开始越来越重视一类场景:答案有可验证 reward,比如数学题、代码题、规则清晰的 reasoning 任务。在这些地方,人类偏好不是唯一信号,甚至不是最强信号。

GRPO(Group Relative Policy Optimization)就是在这个背景下火起来的。

5.1 它不再执着于“单个答案的绝对分值”

GRPO 的核心直觉是:对于同一个问题,采样一组答案出来,让它们在组内相互比较,再根据相对表现更新策略。

这意味着:

5.2 它特别适合 reasoning / verifiable reward

如果你能用程序验证答案对不对,比如:

那组内相对奖励就非常自然。模型不一定需要人类对每个答案做细粒度偏好标注,也不一定需要一个单独 reward model 去学人类偏好。

5.3 它和 DPO 不在完全同一条线上

虽然常被讲成“PPO → DPO → GRPO”的演化,但更准确地说:

它们解决的问题有重叠,但不完全相同。


六、从 PPO 到 DPO / GRPO,背后的主线其实是“降低对齐成本”

如果把这些方法放在一起看,会发现共同趋势很清楚。

6.1 成本在下降

6.2 监督信号在变化

6.3 目标也更细分了

不是所有对齐问题都要用同一种方法:

所以今天谈 RLHF,最好把它理解成一个方法族,而不是单指“奖励模型 + PPO”那一条固定流水线。


七、几个常见误解

7.1 “RLHF 就是强化学习给模型提分”

太浅了。它真正解决的是“如何把人类偏好变成优化信号”,强化学习只是其中一类实现方式。

7.2 “有了 SFT 就不需要 RLHF / DPO 了”

SFT 解决的是模仿示范;偏好优化解决的是在多个可行答案中把人更喜欢的那些推上来。两者不是替代关系。

7.3 “DPO 完全取代了 PPO”

不对。DPO 在很多偏好训练场景里更省更稳,但并不是所有问题都能直接化成 preference pairs。涉及环境交互、可验证多步推理时,PPO 类或 GRPO 类方法仍然有空间。

7.4 “GRPO 就是 DPO 的升级版”

也不准确。GRPO 更偏向策略优化与相对奖励建模,常见于 reasoning / verifiable reward 场景;DPO 则更像 preference pair 上的直接优化。

7.5 “偏好优化一定让模型更真实”

不一定。它可能让模型更符合某种偏好分布,也可能诱导 reward hacking、过度礼貌、模板化、保守化。对齐从来不是白拿的。


八、结语

RLHF 这条线真正重要的地方,不在于它给语言模型套上了“强化学习”这层时髦外衣,而在于它第一次系统地回答了一个产品层面的问题:当正确答案不唯一时,怎样把“人更喜欢哪种回答”这件事写进训练目标。 经典 PPO 版 RLHF 给出了完整但昂贵的答案;DPO 用更便宜的方式把偏好直接写进优化;GRPO 则在 reasoning 和可验证奖励场景里继续把成本往下压。

有了这条对齐线,模型才真正从“会说”开始走向“更像你想要它那样说”。下一篇我们把视角再拉大一点,看支撑这一切规模化演化的另一条总规律:Scaling Laws。


九、参考文献

  1. Ouyang, L. et al. “Training language models to follow instructions with human feedback.” NeurIPS 2022. 经典 RLHF 流水线代表。
  2. Schulman, J. et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347, 2017. PPO 原始论文。
  3. Rafailov, R. et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” NeurIPS 2023. DPO 原始论文。
  4. Bai, Y. et al. “Constitutional AI: Harmlessness from AI Feedback.” arXiv:2212.08073, 2022. 偏好优化与 AI feedback 路线的重要工作。
  5. Shao, Z. et al. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300, 2024. GRPO 的代表性应用。

← 上一篇:32|指令微调 | 下一篇:34|Scaling Laws

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .