【强化学习与大模型后训练】16|奖励黑客与对齐税:失效模式与缓解
奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等,需通过KL惩罚、RLVR等手段缓解。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等,需通过KL惩罚、RLVR等手段缓解。