preference-optimization 标签归档 | 土法炼钢兴趣小组的算法知识备份

preference-optimization 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】10｜DPO：把 RLHF 变成一个分类损失

2026-05-29 | rl-posttraining | #dpo #rlhf #preference-optimization #bradley-terry #implicit-reward #alignment

从 KL 正则 RLHF 目标推导 DPO，解释隐式奖励、Bradley-Terry 替换、梯度含义，以及它省掉在线 PPO 的代价。

【强化学习与大模型后训练】11｜DPO 家族：IPO、KTO、ORPO、SimPO 的取舍

2026-05-29 | rl-posttraining | #dpo #ipo #kto #orpo #simpo #preference-optimization #alignment

围绕 DPO 的关键假设，对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。