outcome reward model 标签归档 | 土法炼钢兴趣小组的算法知识备份

outcome reward model 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】15｜过程奖励 PRM vs 结果奖励 ORM

2026-05-29 | rl-posttraining | #process reward model #PRM #ORM #outcome reward model #step-level supervision #PRM800K #Math-Shepherd #verifier #reasoning #RL #reward model

过程奖励模型（PRM）对推理的每个中间步骤打分，相比仅评估最终答案的ORM提供更密集的训练信号，但标注成本更高。