reward-hacking 标签归档 | 土法炼钢兴趣小组的算法知识备份

reward-hacking 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】08｜奖励模型：偏好数据、Bradley-Terry 与奖励黑客

2026-05-29 | rl-posttraining | #reward-model #preference-data #bradley-terry #rlhf #goodhart #reward-hacking #hh-rlhf #overoptimization

从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练，再讨论校准、集成、过优化与奖励黑客。

【强化学习与大模型后训练】18｜训练稳定性：KL、熵、长度偏置与崩溃诊断

2026-05-29 | rl-posttraining | #rlhf #ppo #kl #entropy #reward-hacking #stability #diagnostics #rlhf-implementation

把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘，定位后训练崩溃与奖励黑客。