【强化学习与大模型后训练】15|过程奖励 PRM vs 结果奖励 ORM 2026-05-29 | rl-posttraining | #process reward model #PRM #ORM #outcome reward model #step-level supervision #PRM800K #Math-Shepherd #verifier #reasoning #RL #reward model 过程奖励模型(PRM)对推理的每个中间步骤打分,相比仅评估最终答案的ORM提供更密集的训练信号,但标注成本更高。