【强化学习与大模型后训练】11|DPO 家族:IPO、KTO、ORPO、SimPO 的取舍 2026-05-29 | rl-posttraining | #dpo #ipo #kto #orpo #simpo #preference-optimization #alignment 围绕 DPO 的关键假设,对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。