reward hacking 标签归档 | 土法炼钢兴趣小组的算法知识备份

reward hacking 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】13｜RLVR：可验证奖励如何训练推理能力

2026-05-29 | rl-posttraining | #RLVR #verifiable rewards #reward hacking #DeepSeek-R1 #rule-based reward #reinforcement learning #reasoning models #reward model #alignment #safety

RLVR用规则或形式化验证器替代学习的奖励模型，以减少reward hacking、提高透明度，适用于数学、代码等具备ground truth的任务。

【强化学习与大模型后训练】16｜奖励黑客与对齐税：失效模式与缓解

2026-05-29 | rl-posttraining | #reward hacking #reward gaming #overoptimization #RM exploitation #length bias #sycophancy #KL penalty #RLVR #alignment tax #safety

奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等，需通过KL惩罚、RLVR等手段缓解。