length bias 标签归档 | 土法炼钢兴趣小组的算法知识备份

length bias 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】16｜奖励黑客与对齐税：失效模式与缓解

2026-05-29 | rl-posttraining | #reward hacking #reward gaming #overoptimization #RM exploitation #length bias #sycophancy #KL penalty #RLVR #alignment tax #safety

奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等，需通过KL惩罚、RLVR等手段缓解。