implicit-reward 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】10｜DPO：把 RLHF 变成一个分类损失

从 KL 正则 RLHF 目标推导 DPO，解释隐式奖励、Bradley-Terry 替换、梯度含义，以及它省掉在线 PPO 的代价。