RLVR 标签归档

共 3 篇文章 · 返回首页

【强化学习与大模型后训练】13｜RLVR：可验证奖励如何训练推理能力

RLVR用规则或形式化验证器替代学习的奖励模型，以减少reward hacking、提高透明度，适用于数学、代码等具备ground truth的任务。

推理模型通过强化学习训练长思维链（long CoT），在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。

奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等，需通过KL惩罚、RLVR等手段缓解。