土法炼钢兴趣小组的算法知识备份

【强化学习与大模型后训练】08|奖励模型:偏好数据、Bradley-Terry 与奖励黑客

文章导航

分类入口
rl-posttraining
标签入口
#reward-model#preference-data#bradley-terry#rlhf#goodhart#reward-hacking#hh-rlhf#overoptimization

目录

奖励模型是 RLHF 里最像“裁判”的组件,也是最容易被误用的组件。 它把人类偏好压缩成一个标量分数,但这个分数不是事实真理,只是偏好数据、模型容量和训练分布共同形成的代理目标。

这篇文章从成对偏好数据讲起,写出 Bradley-Terry 概率模型和二元偏好损失,再讨论校准、集成、过优化、Goodhart 定律和奖励黑客。 第 16 篇会继续展开失效模式与缓解。

一、偏好数据长什么样

一条偏好样本通常包含同一个 prompt 下的两个候选回答,以及标注者认为更好的一个。

prompt: 解释为什么 PPO 需要 KL 约束
chosen: 回答 A,解释了 on-policy 偏移和参考模型约束
rejected: 回答 B,只说 PPO 更稳定
label: chosen > rejected

这种数据比单个参考答案更灵活。 开放问题可能没有唯一正确答案,但人类往往能比较两个回答在有用性、真实性、无害性和格式上的相对质量。

二、Bradley-Terry 偏好模型

Bradley-Terry 模型把“回答 \(y_w\) 胜过 \(y_l\)”的概率写成两个标量奖励差的 sigmoid。

\[ P(y_w\succ y_l|x)=\sigma(r(x,y_w)-r(x,y_l)) \]

其中 \(r(x,y)\) 是奖励模型给 prompt-response 对的标量分数。 分数绝对值没有独立意义,差值才进入偏好概率。

三、奖励模型训练损失

实际训练时,通常在一个语言模型 backbone 顶部加 scalar head,对 chosen 和 rejected 分别输出一个 reward,再最小化负对数似然。

\[ \mathcal{L}_{RM}(\theta)=-\log\sigma(r_\theta(x,y_w)-r_\theta(x,y_l)) \]

这个损失等价于一个二分类排序损失。 若 chosen 分数比 rejected 高很多,loss 接近 0;若 rejected 分数更高,loss 会快速增大。

note = "示意:pairwise reward model loss"
chosen_reward = reward_model(prompt, chosen_response)     # shape: [batch]
rejected_reward = reward_model(prompt, rejected_response) # shape: [batch]
loss = -logsigmoid(chosen_reward - rejected_reward).mean()

四、RM 分数不是可无限优化的真值

奖励模型只是代理。 它在训练偏好分布附近比较可靠,但策略优化会主动寻找能让 RM 高分的回答。 分布一旦移出 RM 训练覆盖范围,分数就可能变成漏洞。

这就是 Goodhart 定律在后训练里的形态:当一个代理指标成为优化目标,它就会逐渐失去作为指标的可靠性。

五、校准、集成与不确定性

六、过优化与 \(\sqrt{KL}\) 关系

Gao et al. 2023 研究了奖励模型过优化。 他们区分“代理奖励模型”和“gold reward model”,并报告随着策略相对初始分布的 KL 增大,代理奖励会持续上升,但真实奖励会在某个点后下降。

论文中的一个核心经验关系是,过优化带来的差距与策略偏移量相关,常用 \(\sqrt{KL}\) 形式描述趋势。 这里不把它当成普适定律,而是把它作为诊断直觉:策略离 RM 训练分布越远,RM 被 exploit 的风险越高。

七、偏好数据集与 HH-RLHF

Anthropic HH-RLHF 数据集围绕 helpfulness 和 harmlessness 收集人类偏好,是早期开放偏好数据的重要来源。 Bai et al. 2022 的 Constitutional AI 工作也展示了用原则和 AI feedback 扩展偏好监督的路线。

数据集名称不能替代数据审计。 使用任何偏好数据前,都要检查 prompt 来源、标注指南、语言覆盖、拒答比例、长度分布和许可证条件。

八、奖励模型核对清单

1. 标注指南

2. 候选生成

3. 位置偏差

4. 长度偏差

5. 格式偏差

6. 安全偏好

7. 训练分割

8. 标量头

9. 分数中心化

10. 校准曲线

11. RM 集成

12. 在线重评

13. KL 约束

14. OOD 检测

15. 红队样本

16. 奖励黑客

九、与 PPO、DPO 的连接

PPO 式 RLHF 显式训练 RM,再用 RM 分数加 reference KL 作为奖励优化策略。 RM 的错误会被策略放大,因此 PPO 日志必须同时看 reward、KL、长度和人工评测。

DPO 绕开显式 RM 训练,但没有绕开偏好建模。 它把偏好数据和 reference policy 直接写成分类损失,可以理解为学习隐式奖励差。 第 10 篇会推导这个关系。

十、奖励模型审计清单

1. 偏好定义

2. 候选差异

3. 顺序随机

4. 长度控制

5. 分组切分

6. 标量位置

7. 奖励归一

8. 校准分桶

9. OOD 样本

10. 集成分歧

11. 红队回答

12. Goodhart 诊断

13. KL 曲线

14. HH-RLHF 使用

15. 二元损失

16. 标签噪声

17. 安全冲突

18. 上线重评

19. 许可证

20. 第 16 篇衔接

21. pair 方向

22. 重复 prompt

23. 分数漂移

24. 标注员偏差

25. 领域外问题

26. 可解释样本

27. 代理组合

28. 训练容量

29. 过拟合检测

30. 人评闭环

31. 反事实样本

32. 发布限制

十一、参考资料

← 上一篇:07|监督微调(SFT) | 下一篇:09|RLHF 全链路

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。


By .