土法炼钢兴趣小组的算法知识备份

【强化学习与大模型后训练】15|过程奖励 PRM vs 结果奖励 ORM

文章导航

分类入口
rl-posttraining
标签入口
#process reward model#PRM#ORM#outcome reward model#step-level supervision#PRM800K#Math-Shepherd#verifier#reasoning#RL#reward model

目录

结果奖励只问最后答案对不对。

过程奖励进一步追问:每一步推理是否可靠,错误从哪里开始。

这正是过程奖励模型(Process Reward Model, PRM)和结果奖励模型(Outcome Reward Model, ORM)的分界。

在推理模型训练中,PRM 的价值不是替代所有 RLVR,而是补足最终奖励太稀疏、太晚到的问题。

本文围绕数学推理场景展开,因为 PRM800K、Uesato et al. 2022、Math-Shepherd 和 Cobbe et al. 2021 都主要以数学问题为核心实验对象。

读完本文,你应该能判断什么时候值得付出步骤标注成本,什么时候用 ORM 或 RLVR 更合适。

一、ORM 与 PRM 的基本区别

ORM 只对完整解答给分。

给定问题 \(x\) 和回答 \(y\),ORM 输出 \(R(x,y)\)

如果最终答案正确,它可能给高分;如果最终答案错误,它给低分。

PRM 则把回答拆成步骤 \(s_1,s_2,\ldots,s_T\),对每一步或每个前缀给分。

\[ R_{PRM}(x,y)=\{r_1,r_2,\ldots,r_T\} \]

其中 \(r_t\) 表示第 \(t\) 步是否保持正确推理,或从此前缀继续得到正确答案的可能性。

这个差别看似只是粒度不同,训练含义却很大。

ORM 告诉模型“整条路最后失败了”。

PRM 告诉模型“从哪一步开始偏离了正确路线”。

在长 CoT 中,这种定位非常重要。

一个十步解法如果第 3 步错了,ORM 只能惩罚整条序列。

PRM 可以奖励前两步,惩罚第 3 步之后的错误延伸。

维度 ORM PRM
评分对象 完整答案或最终结果 中间步骤或前缀
反馈密度 稀疏 密集
标注成本 较低 较高
错误定位
适用搜索 best-of-n 重排 逐步 beam/tree search

二、为什么最终答案监督不够

最终答案监督对短任务足够有效。

如果回答只有一两步,失败和成功之间的差异容易由采样比较捕捉。

但长推理链存在 credit assignment 问题。

最终答案错误可能由早期代数错误、错误假设、漏掉条件、单位转换或最后抄写错误导致。

ORM 无法区分这些原因。

在 RL 中,这会导致高方差。

在搜索中,这会导致错误前缀继续扩展,浪费计算。

PRM 的想法是把监督提前。

如果一个前缀已经不可挽回地错误,就尽早降低它的分数。

如果一个前缀虽然未完成但方向正确,就保留或扩展它。

这更接近人类批改数学作业的方式。

老师不会只看最后答案,也会圈出第一处错误。

三、PRM800K:逐步标注的代表数据集

Lightman et al. 2023 的 “Let’s Verify Step by Step” 发布并使用了 PRM800K。

这个数据集包含数学问题解答中的步骤级人类标注,用来训练 PRM。

论文的重要结论之一是,在数学推理上,过程监督可以优于只监督最终答案的结果监督。

这里要注意证据边界。

PRM800K 的结论来自特定数学任务、模型和采样设置。

不能直接推出所有开放式任务都应该用 PRM。

但它证明了一个强信号:步骤级标签在需要长推理的任务上可以带来实质收益。

PRM800K 也暴露出代价。

人类需要阅读每个解答步骤,判断它是否正确或是否仍可导向正确解法。

这比只看最终答案昂贵得多。

步骤边界本身也可能有歧义。

一个模型生成的“步骤”可能包含多个推理动作,标注者需要决定按哪一粒度判断。

四、Uesato et al. 2022:过程反馈与结果反馈

Uesato et al. 2022 系统比较了 process-based feedback 和 outcome-based feedback 在数学文字题中的作用。

这篇工作早于 PRM800K,但已经清楚提出:对中间推理过程进行监督,可能比只看最终结果更能引导模型。

它的意义在于把“解题过程”作为监督对象,而不是把推理链当成不可见副产品。

对后来的推理模型训练来说,这个视角非常关键。

如果模型的能力来自中间搜索和自检,那么训练信号也应该尽量接近中间行为。

当然,过程反馈并不自动正确。

标注者也可能误判复杂步骤。

不同标注者对“可接受推理”的标准可能不一致。

因此 PRM 的质量依赖标注规范、标注者能力和数据审计。

五、PRM 的训练形式

PRM 通常以语言模型为 backbone,加一个步骤级评分头。

输入是问题、到当前步骤为止的推理前缀,以及当前步骤。

输出可以是二分类概率,也可以是连续分数。

如果标签 \(z_t\in\{0,1\}\) 表示步骤是否正确,可以使用二元交叉熵。

\[ \mathcal{L}_{PRM}=-\sum_{t=1}^{T}\left[z_t\log p_t+(1-z_t)\log(1-p_t)\right] \]

其中 \(p_t\) 是 PRM 认为第 \(t\) 步正确的概率。

也可以把标签定义为“此前缀最终能否导向正确答案”。

这两种定义接近但不完全相同。

步骤本身局部正确,不代表后续一定成功。

前缀中存在小错误,也可能被后续修正,但数学推理中许多错误会污染后续所有步骤。

训练 PRM 前必须明确标签语义。

"""PRM 的步骤级 BCE 损失示意。"""
import torch
import torch.nn.functional as F

logits = torch.tensor([1.2, 0.8, -0.6, -1.4])
labels = torch.tensor([1.0, 1.0, 0.0, 0.0])
loss = F.binary_cross_entropy_with_logits(logits, labels)
print(float(loss))

这段代码只是损失形态示意,不代表任何论文的完整训练配方。

六、步骤切分是一个隐藏难题

PRM 假设回答可以拆成步骤。

但模型生成文本并不天然遵守人类步骤边界。

有的步骤包含两个代数变形。

有的步骤只是口头说明,没有新的数学状态。

有的步骤同时提出假设和执行计算。

如果切分太粗,PRM 无法定位具体错误。

如果切分太细,标注成本和噪声都会上升。

工程上常要求模型按行或编号输出步骤。

这能降低切分难度,但也引入格式依赖。

模型可能为了迎合 PRM 学会固定格式,而不是提高真实推理。

因此步骤格式应该服务于验证,而不是成为主要奖励目标。

七、PRM 的第一种用法:重排多个解答

最直接的用法是 best-of-n 重排。

模型对同一道题生成 \(n\) 条候选解。

PRM 对每条解的步骤逐一打分。

系统选择整体步骤分最高的候选。

相比 ORM,PRM 在候选最终答案相同或都不确定时能利用更多信息。

例如一条解法最后答案正确但中间有跳步,另一条解法每步稳健但最后抄写错。

不同选择策略会给出不同偏好。

PRM 分数聚合也有多种做法。

Lightman et al. 2023 的实验重点之一就是用 PRM 选择更可靠的数学解答。

八、PRM 的第二种用法:指导搜索

PRM 更强的用法是指导逐步搜索。

不是先生成完整答案再评分,而是在每一步扩展多个候选步骤。

PRM 对每个前缀打分,低分分支被剪掉,高分分支继续展开。

这接近 beam search 或 tree search。

它把推理从单条自回归采样变成显式搜索问题。

优势是可以更早抛弃错误路径。

代价是推理成本上升。

每一步都要采样、评分和维护候选集合。

如果 PRM 错误地压低正确但少见的路径,搜索会过早收敛到错误答案。

因此 PRM 搜索需要在探索和利用之间平衡。

PRM-guided search 的抽象循环:
1. 从当前前缀生成 K 个下一步候选。
2. 用 PRM 给每个新前缀打分。
3. 保留得分最高或多样性约束下的 B 个前缀。
4. 重复直到得到最终答案或达到预算。

九、PRM 的第三种用法:作为 RL 信号

PRM 也可以为 RL 提供更密集的奖励。

最终答案奖励只在序列末尾出现。

PRM 可以把每个步骤分数变成中间奖励。

这有助于降低方差,但也增加 reward hacking 风险。

如果 PRM 是学习模型,策略可能学会写出 PRM 喜欢的步骤风格。

例如每一步都写得很自信、很规整,却隐藏错误。

因此用 PRM 做 RL 奖励时,最好保留最终答案验证或 ORM 约束。

一个常见组合是:PRM 指导搜索,RLVR 判断最终正确性。

另一种组合是:PRM 提供 shaping reward,最终奖励决定主方向。

\[ R=R_{final}+\lambda\sum_{t=1}^{T}r_t \]

这里的 \(\lambda\) 不能太大,否则模型可能优化步骤外观而不是最终正确性。

十、Math-Shepherd:不用人工逐步标注的尝试

Wang et al. 2024 的 Math-Shepherd 试图降低 PRM 标注成本。

它不依赖人工为每个步骤标注,而是利用最终结果和自动构造过程监督信号来训练逐步验证器。

这条路线的动机非常明确:人工 PRM 标签贵,数学答案又可以自动检查。

如果能从 outcome 反推出哪些步骤更可能正确,就能扩展过程监督数据。

但自动标签也会带来噪声。

一个前缀后面采样出正确答案,并不证明该前缀本身严格正确。

一个前缀后面多次失败,也不证明此前缀不可修复。

因此自动 PRM 标签要看采样覆盖、验证器质量和噪声鲁棒性。

Math-Shepherd 的意义在于展示了过程监督可以从人工密集标注走向自动构造。

这对于大规模推理模型训练非常重要。

十一、和 Cobbe verifier 的关系

Cobbe et al. 2021 训练 verifier 来选择数学问题候选解。

它更接近结果级验证器:对完整解答打分,然后在多个候选中选择。

PRM 则把验证粒度推进到步骤。

两者不是对立关系。

完整解答 verifier 成本更低,适合 best-of-n。

步骤 verifier 成本更高,适合搜索和错误定位。

在工程系统中,可以先用 ORM 或答案验证筛掉明显错误,再用 PRM 在难题上做精细选择。

也可以用 PRM 生成更好候选,再用最终答案验证确认。

关键是不要把“验证器”这个词混成同一种对象。

它可以指结果级 RM、结果级 verifier、过程级 PRM 或形式化检查器。

十二、PRM 的标注成本

PRM 最大缺点是标注成本。

标注者需要懂题目,读完整推理,判断每一步。

复杂数学题的步骤正确性并不总是显然。

一步看似跳跃的推导可能是合法省略。

一步看似合理的代数变换可能隐藏了除以零、符号方向或定义域问题。

标注噪声会直接进入 PRM。

如果 PRM 学到错误标准,搜索和 RL 会放大这些错误。

因此 PRM 数据集需要严格标注指南、复核机制和一致性统计。

Lightman et al. 2023 的贡献不仅是模型方法,也包括大规模步骤标注数据。

这类数据资产本身就很昂贵。

十三、PRM 的 reward hacking 风险

PRM 仍然是奖励模型。

只要它是学习出来的,就可能被策略 exploit。

常见风险包括格式游戏、局部正确幻觉和保守偏置。

格式游戏指模型学会 PRM 偏好的步骤模板。

局部正确幻觉指每一步看似合理,但全局目标没有推进。

保守偏置指 PRM 更喜欢常见解法,压低创新但正确的路径。

这些风险说明 PRM 不能完全替代最终验证。

过程分数高的解答仍然应该检查最终答案。

如果可能,关键步骤还应使用符号验证或数值校验。

PRM 最适合做搜索启发和训练 shaping,而不是唯一真理来源。

十四、什么时候用 PRM、ORM、RLVR

场景 优先选择 原因
最终答案容易验证,步骤短 RLVR 或 ORM 二值正确性已经提供足够信号
长数学推理,错误定位重要 PRM + 最终验证 需要密集反馈和防止错误分支扩展
开放式回答,无客观答案 偏好 RM 或人工评审 步骤正确性难形式化
代码生成 单元测试 RLVR + 局部诊断 测试可执行,步骤文本未必可靠
形式化证明 证明检查器 + 搜索 每步 proof state 可验证

这个表的重点是任务结构。

PRM 不是越多越好。

如果最终验证便宜且有效,PRM 可能只是增加成本。

如果推理链很长且搜索空间很大,PRM 的密集反馈才更有价值。

十五、实践核对清单

PRM 的价值来自更细粒度的监督,而不是更神秘的模型结构。

它把长推理训练从“最后判卷”推进到“逐步批改”。

参考资料

PRM 是长推理时代的重要工具,但它不是免费午餐。

它用更高标注或自动标签复杂度换来更密集的训练信号和更强的错误定位能力。

最稳妥的路线通常是把 PRM 与最终答案验证、ORM 或 RLVR 组合使用。

← 上一篇:14|推理模型训练 | 下一篇:16|奖励黑客与对齐税

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-05-29 · rl-posttraining

强化学习与大模型后训练

从 MDP、策略梯度、PPO 等强化学习最小必要集出发,系统讲清现代大模型后训练:SFT、奖励模型、RLHF,到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO,再到 RLVR 可验证奖励、推理模型(o1/R1 范式)、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。


By .