overoptimization 标签归档 | 土法炼钢兴趣小组的算法知识备份

overoptimization 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】08｜奖励模型：偏好数据、Bradley-Terry 与奖励黑客

2026-05-29 | rl-posttraining | #reward-model #preference-data #bradley-terry #rlhf #goodhart #reward-hacking #hh-rlhf #overoptimization

从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练，再讨论校准、集成、过优化与奖励黑客。

【强化学习与大模型后训练】16｜奖励黑客与对齐税：失效模式与缓解

2026-05-29 | rl-posttraining | #reward hacking #reward gaming #overoptimization #RM exploitation #length bias #sycophancy #KL penalty #RLVR #alignment tax #safety

奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等，需通过KL惩罚、RLVR等手段缓解。