【强化学习与大模型后训练】08|奖励模型:偏好数据、Bradley-Terry 与奖励黑客
从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练,再讨论校准、集成、过优化与奖励黑客。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练,再讨论校准、集成、过优化与奖励黑客。
把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘,定位后训练崩溃与奖励黑客。