【强化学习与大模型后训练】10|DPO:把 RLHF 变成一个分类损失 2026-05-29 | rl-posttraining | #dpo #rlhf #preference-optimization #bradley-terry #implicit-reward #alignment 从 KL 正则 RLHF 目标推导 DPO,解释隐式奖励、Bradley-Terry 替换、梯度含义,以及它省掉在线 PPO 的代价。