orpo 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】11｜DPO 家族：IPO、KTO、ORPO、SimPO 的取舍

围绕 DPO 的关键假设，对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。