【强化学习与大模型后训练】08|奖励模型:偏好数据、Bradley-Terry 与奖励黑客 2026-05-29 | rl-posttraining | #reward-model #preference-data #bradley-terry #rlhf #goodhart #reward-hacking #hh-rlhf #overoptimization 从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练,再讨论校准、集成、过优化与奖励黑客。