后训练方法变化很快。
RLHF 还没完全工程化,DPO、IPO、KTO、GRPO、RLVR、过程奖励、RLAIF、自奖励、Agentic RL 就不断出现。
但变化背后有几条稳定主线。
第一,反馈从人类偏好扩展到 AI 反馈、规则验证器和环境回报。
第二,训练目标从“回答更像人类喜欢的助手”扩展到“在可验证任务中解决问题”。
第三,数据从人工收集扩展到模型自生成、自筛选和自改进。
第四,评测从训练结束后的报表,变成训练闭环的一部分。
本文是本系列最后一篇,讨论几个前沿方向:RLAIF 与 Constitutional AI,自奖励与自我对弈,Agentic RL,合成数据飞轮,从 RLHF 到 RLVR 再到更广义可验证环境的迁移。
其中带有未来判断的内容,我会明确标注为“推测”。
一、从 RLHF 到更宽的反馈谱系
1.1 人类反馈的价值
RLHF 的核心价值是把人类偏好接入语言模型训练。
人类能判断开放式回答是否有用、诚实、安全、符合语境。
这些目标很难写成精确规则。
因此偏好数据和奖励模型曾经是对齐训练的关键路径。
Ouyang 等人的 InstructGPT 展示了 SFT、reward model、PPO 组成的有效路线。
1.2 人类反馈的限制
人类反馈昂贵。
标注速度慢。
一致性有限。
专业领域需要专家。
复杂推理轨迹难以逐步评判。
对抗样本和长上下文评测成本更高。
这些限制推动研究者寻找更便宜、更可扩展的反馈来源。
1.3 反馈来源的扩展
后训练的反馈谱系可以粗略分成五类。
| 反馈来源 | 例子 | 优势 | 风险 |
|---|---|---|---|
| 人类偏好 | RLHF pairwise labels | 接近真实偏好 | 成本高,规模有限 |
| AI 反馈 | RLAIF、judge model | 便宜,可扩展 | 继承模型偏差 |
| 宪法规则 | Constitutional AI principles | 可解释,可复核 | 规则覆盖不完整 |
| 可验证结果 | 数学、代码、游戏胜负 | 客观,低噪声 | 只覆盖可验证任务 |
| 环境回报 | Agent 工具任务成功 | 接近真实任务 | credit assignment 难 |
从近两年的公开路线看,实际系统大概率会混合多种反馈,而不是只依赖一种。
这是趋势判断,不是已被证明的结论。
1.4 目标函数从偏好走向环境
偏好优化关注“哪个回答更好”。
RLVR 关注“答案是否可验证正确”。
Agentic RL 关注“多步行动是否完成任务”。
这三者的目标越来越接近传统 RL 的环境回报。
但语言模型的状态、动作和奖励仍然特殊。
动作是 token、工具调用或消息。
状态是上下文、外部环境和历史轨迹。
奖励可能稀疏、延迟且容易被黑客利用。
二、RLAIF 与 Constitutional AI
2.1 Constitutional AI 的基本思想
Bai 等人在 2022 年提出 Constitutional AI。
它使用一组自然语言原则,引导模型批评和修改自己的回答,并用 AI 反馈替代部分人类标注。
“宪法”不是法律意义上的宪法,而是一组帮助性、诚实性、无害性原则。
模型先生成回答,再根据原则自我批评,再生成修订回答。
随后可以用这些偏好或修订数据训练模型。
2.2 RLAIF 的动机
RLAIF 指 Reinforcement Learning from AI Feedback。
Lee 等人在 2023 年研究了用 AI feedback 训练 helpful and harmless assistant 的路线。
它的动机是降低人类标注成本,并把反馈扩展到更多 prompt。
AI judge 可以快速比较回答、给出批评或产生偏好标签。
2.3 RLAIF 的优势
RLAIF 的优势包括:
- 标注成本低。
- 覆盖速度快。
- 可以生成多轮批评。
- 容易按原则定制。
- 能用于初步筛选大量样本。
- 可以在专业模型辅助下覆盖特定领域。
这些优势让 RLAIF 适合数据飞轮。
2.4 RLAIF 的风险
RLAIF 的风险同样明显。
AI judge 可能继承基础模型偏差。
AI judge 可能偏爱长回答、特定格式或自信语气。
AI judge 可能无法发现事实错误。
如果生成模型和 judge 同源,偏差会互相强化。
如果宪法原则模糊,模型会学习表面合规语言,而不是真实安全行为。
2.5 宪法规则的工程要求
宪法原则需要版本化。
每条原则要有示例。
冲突原则要有优先级。
例如 helpfulness 与 harmlessness 冲突时,安全优先级如何处理。
修改原则等于修改奖励定义。
训练结果不能直接与旧原则下的结果比较。
2.6 人类仍然在环中
RLAIF 不意味着完全不需要人类。
人类仍然需要设计原则、校准 judge、审查失败样本、处理高风险领域和验证最终行为。
更准确的说法是:AI feedback 把人类从逐条标注中部分解放出来,让人类更多做规范设计和质量审计。
三、自奖励与自我改进
3.1 Self-Rewarding Language Models
Yuan 等人在 2024 年提出 Self-Rewarding Language Models。
核心思想是让模型既生成回答,也生成或参与判断反馈,从而迭代改进。
这种路线试图减少外部 reward model 的依赖。
它与 RLAIF 相近,但更强调模型自身能力随迭代提升后,反馈质量也可能提升。
3.2 自奖励的吸引力
自奖励最吸引人的地方是规模化。
如果模型能稳定评价自己的输出,就可以生成大量偏好数据或训练信号。
这会形成数据飞轮:更强模型生成更好数据,更好数据训练更强模型。
在开放式任务上,这个愿景很诱人。
3.3 自奖励的核心风险
自奖励也最容易自我确认。
模型可能奖励自己擅长的风格。
模型可能无法发现自己不知道的事实错误。
模型可能把“看起来合理”当成“真的正确”。
如果没有外部校验,错误偏差会在迭代中积累。
因此自奖励需要外部 anchor:人类审查、可验证任务、独立 judge 或真实环境回报。
3.4 批评—修订循环
一种常见自改进形式是 critique-revise。
模型先生成初稿。
再生成批评。
再根据批评修订。
最后选择更好的版本用于训练。
这可以提高数据质量。
但批评文本本身也可能模板化。
如果批评不具体,修订就只是风格变化。
3.5 自生成数据的过滤
合成数据不能无条件加入训练。
需要过滤:
- 去重。
- 事实校验。
- 规则验证。
- 难度分层。
- 多样性约束。
- 安全审查。
- 与评测集去污染。
没有过滤的数据飞轮会变成噪声飞轮。
四、自我对弈与 SPIN
4.1 AlphaZero 类比
Silver 等人在 2017 年提出 AlphaZero,通过自我对弈和搜索在围棋、国际象棋和将棋中取得强表现。
这个故事常被拿来类比语言模型自我改进。
类比的有用之处是:强系统可以通过与自身或环境互动生成更高质量训练数据。
类比的危险之处是:棋类有清晰规则和胜负信号,开放式语言任务没有这么干净的环境。
4.2 SPIN 的思路
Chen 等人在 2024 年提出 SPIN,即 Self-Play Fine-Tuning。
它把当前模型生成的回答与人类数据或历史模型回答进行区分式训练,让模型通过自我博弈式数据构造改进。
SPIN 不是简单复制 AlphaZero。
它更像把“模型生成负样本或对手样本”纳入监督/偏好优化流程。
4.3 自我对弈适合什么任务
自我对弈更适合存在明确对抗或验证结构的任务。
例如游戏、辩论、代码测试、工具任务、数学证明检查。
在开放式写作和聊天中,自我对弈的胜负定义更模糊。
这时需要 judge 或人类偏好作为裁判。
裁判质量决定自我对弈是否有效。
4.4 对手模型与历史池
自我对弈系统通常需要维护历史模型池。
只和当前自己对弈,可能快速过拟合当前弱点。
和历史版本、不同风格模型、强基线模型交互,可以增加多样性。
这与强化学习中的 population-based training 有相似直觉。
但语言模型的多样性和安全边界更难控制。
4.5 推测:自我对弈会先在可验证领域成熟
这是推测。
自我对弈最可能先在可验证任务中成熟。
原因是裁判更可靠。
数学可以验证答案。
代码可以跑测试。
工具任务可以看环境状态。
开放式对话也会使用自我对弈,但更依赖 judge 校准和人工审查。
五、Agentic RL:从回答优化到轨迹优化
5.1 Agent 任务的不同之处
普通后训练优化单轮回答。
Agentic RL 优化多步轨迹。
模型可能需要:
- 读取任务。
- 规划步骤。
- 调用工具。
- 观察结果。
- 修改计划。
- 写入文件或执行代码。
- 最终提交答案。
奖励不再只对应一个回答文本,而是对应整个轨迹是否成功。
5.2 状态与动作
Agent 的状态包括对话历史、工具返回、环境文件、外部网页、数据库或代码仓库。
动作包括自然语言、工具调用、API 参数、代码补丁和终止决策。
这比 token-level PPO 更接近传统 RL。
但动作空间仍然巨大。
错误一步可能导致后续状态完全不同。
5.3 稀疏奖励与 credit assignment
Agent 任务常只有最终成功/失败奖励。
例如测试是否通过、网页任务是否完成、漏洞是否修复。
中间哪一步贡献最大,很难判断。
这会带来 credit assignment 问题。
过程奖励、轨迹评分、反事实回放和工具日志分析可能缓解问题。
但过程奖励本身也可能被黑客利用。
5.4 工具环境的安全
Agentic RL 需要执行工具。
这带来工程和安全要求。
训练环境应隔离。
命令执行要有权限边界。
网络访问要受控。
文件系统要可回滚。
任务评测要防止模型利用测试漏洞。
这些问题比普通文本 RLHF 更接近安全沙箱和 CI 系统。
5.5 轨迹数据的价值
Agent 轨迹比单轮回答更有信息。
它记录了模型如何尝试、失败、修正和完成任务。
这些轨迹可以用于 SFT、过程奖励、错误分类和 curriculum 构造。
但轨迹也更长、更贵、更难去重。
数据治理会成为 Agentic RL 的核心基础设施。
5.6 推测:Agentic RL 会推动训练与评测一体化
这是推测。
Agent 训练需要环境。
Agent 评测也需要环境。
两者会越来越像同一个系统:训练从环境采样,评测在隔离环境复现,失败样本回流数据池。
这会让后训练平台更接近“可验证任务操作系统”。
六、合成数据飞轮
6.1 飞轮的基本结构
合成数据飞轮可以抽象为:
- 当前模型生成候选数据。
- judge、规则或环境筛选数据。
- 高质量数据进入 SFT、DPO、RL 或 verifier 训练。
- 新模型生成更强候选。
- 继续迭代。
这个循环可以在偏好任务、数学任务、代码任务和 agent 任务中出现。
6.2 飞轮成功的条件
数据飞轮要成功,至少需要:
- 候选生成有多样性。
- 筛选器比生成器更可靠。
- 错误样本不会大规模回流。
- 难度随模型能力提升。
- 评测集保持独立。
- 有人工或外部环境校准。
缺少这些条件,飞轮会自我污染。
6.3 难度调度
如果合成任务太容易,模型学不到新东西。
如果太难,奖励过稀疏,训练不稳定。
因此需要 curriculum。
数学可以按题目难度分层。
代码可以按测试覆盖、依赖复杂度、文件数量分层。
Agent 任务可以按工具数、上下文长度、状态空间分层。
6.4 多样性约束
模型自生成数据容易风格趋同。
需要多样性约束。
例如 prompt 类型、领域、语言、长度、解题路径、工具组合、失败模式都要覆盖。
只追求高分样本,会让数据分布变窄。
分布变窄会带来回归和过拟合。
6.5 失败样本是燃料
飞轮不只需要成功样本。
失败样本同样重要。
失败样本告诉我们模型不会什么、reward 漏洞在哪里、评测盲区在哪里。
把失败样本转化为修正数据,是后训练迭代的关键能力。
6.6 数据飞轮与版权、隐私和安全
合成数据不自动等于无风险。
生成模型可能复述训练语料。
合成数据可能包含隐私、偏见或不安全内容。
数据管线需要过滤、审计和来源记录。
这是工程治理问题,不是单纯算法问题。
七、从 RLHF 到 RLVR,再到可验证环境
7.1 RLHF 的强项
RLHF 适合开放式偏好。
例如语气、帮助性、回答结构、安全边界。
这些目标难以用程序验证。
人类或 AI judge 的偏好信号仍然重要。
7.2 RLVR 的强项
RLVR 适合有明确正确性的任务。
例如数学答案、代码测试、形式化证明、工具任务结果。
它减少了 reward model 幻觉。
DeepSeek-AI 2025 年 R1 报告展示了基于可验证奖励强化推理能力的路线,引发了对 RLVR 的广泛关注。
7.3 可验证不等于完整
可验证奖励覆盖的是目标的一部分。
数学答案正确,不代表解释清楚。
代码测试通过,不代表实现安全、可维护或高效。
工具任务成功,不代表没有违规操作。
因此 RLVR 仍然需要偏好、安全和回归评测配合。
7.4 更广义的可验证环境
未来的可验证环境可能包括:
- 编程任务环境。
- 浏览器任务环境。
- 数据分析任务环境。
- 科学计算环境。
- 机器人或仿真环境。
- 多智能体协作环境。
- 企业工作流沙箱。
这是推测。
共同点是:模型行动会改变环境,环境给出可检查结果。
7.5 环境设计会成为奖励设计
一旦进入可验证环境,环境本身就是奖励函数的一部分。
测试写得不好,模型会钻测试漏洞。
浏览器任务定义不清,模型会完成表面目标。
沙箱权限过宽,模型可能利用环境捷径。
因此环境设计、测试设计和奖励设计不可分割。
八、开放问题
8.1 奖励规范
我们仍然不知道如何完整表达“好回答”。
偏好奖励有偏差。
规则奖励覆盖有限。
可验证奖励可能狭窄。
多目标奖励权重难调。
奖励规范仍是后训练的核心难题。
8.2 泛化
模型可能在训练 prompt、训练 judge 或训练环境上变强,却不能泛化到新任务。
这在合成数据飞轮中尤其危险。
评测必须包含分布外任务和新环境。
泛化不是 reward 曲线能直接证明的。
8.3 评测可靠性
自动评测越来越重要。
但 judge bias、benchmark contamination、leaderboard overfitting 都会削弱可信度。
后训练前沿越依赖自动反馈,越需要独立评测和人类审计。
8.4 过程监督
过程奖励可以帮助长链推理和 agent 任务。
但过程标签难收集,过程 judge 也可能错。
如果过程奖励鼓励“看起来像推理”,模型可能写更长但不更正确的推理链。
过程监督需要与最终结果验证结合。
8.5 安全与能力共进
未来系统需要更强能力,也需要更强安全。
能力提升会扩大可执行动作空间。
安全训练必须跟上能力边界。
尤其在工具调用、代码执行和长程 agent 中,安全不再只是文本拒答问题。
8.6 基础设施
前沿方法对基础设施要求更高。
RLAIF 需要 judge 服务。
RLVR 需要验证器和沙箱。
Agentic RL 需要环境池和轨迹存储。
自我对弈需要模型池和对手调度。
合成数据飞轮需要数据治理和去污染。
没有基础设施,方法只能停留在小规模 demo。
九、稳定原则:方法会变,约束不变
9.1 原则一:反馈必须可校准
无论反馈来自人类、AI、规则还是环境,都要能被校准。
要有独立评测。
要有失败样本审查。
要能解释反馈来源和版本。
不能把任何 reward 当成真理。
9.2 原则二:策略移动必须受控
无论用 PPO、GRPO、DPO 还是新方法,策略不能无约束追逐代理目标。
KL、早停、回归评测和安全门槛仍然重要。
模型越大,单次错误更新代价越高。
9.3 原则三:数据闭环必须防污染
合成数据、失败样本、eval prompt、训练 prompt 之间要有边界。
版本化、去重、holdout 和审计不是可选项。
数据飞轮的质量取决于过滤器,而不只取决于生成器。
9.4 原则四:评测要覆盖代价
每次能力提升都要问代价。
长度是否增加。
安全是否下降。
非目标能力是否回退。
推理是否只是模板变长。
成本和延迟是否可接受。
9.5 原则五:可验证优先,但不要迷信可验证
可验证奖励是强信号。
它能减少偏好噪声。
但它只覆盖可验证的部分。
开放式人类价值、安全边界和产品体验仍需偏好评测与人工审查。
9.6 原则六:透明记录比事后解释更重要
训练时记录版本、数据、奖励、评测和失败样本。
事后才补解释,通常已经晚了。
后训练是实验科学,也是生产工程。
可追溯性决定了能否从失败中学习。
十、对本系列的回看
10.1 从 MDP 到策略梯度
本系列前半部分从 MDP、策略梯度、actor-critic 和 PPO 建立了 RL 基础。
这些概念仍然是理解后训练的底层语言。
状态、动作、奖励、策略、价值、优势,不会因为模型变大而消失。
只是它们在 LLM 中有了新的工程形态。
10.2 从 SFT 到 RLHF 与 DPO
中段文章讨论了 SFT、reward model、RLHF-PPO、DPO 及其变体。
这些方法代表了从监督模仿到偏好优化的路线。
DPO 系列降低了在线 RL 工程复杂度。
PPO/RLHF 保留了在线优化能力。
二者不是简单替代关系,而是不同成本—能力折中。
10.3 从 GRPO 到 RLVR 与推理模型
后段文章讨论了 GRPO、RLVR、推理模型和过程奖励。
这条线展示了后训练从对话偏好走向可验证推理。
它也是当前最活跃的方向之一。
但推理能力提升仍然需要稳定性、评测和奖励规范配合。
10.4 从奖励黑客到基础设施
奖励黑客、训练稳定性、RL 基础设施和评测构成工程闭环。
没有基础设施,算法跑不稳。
没有稳定性仪表盘,reward 上升可能是幻觉。
没有评测,无法判断真实收益。
没有奖励黑客意识,任何代理目标都会被过优化。
十一、面向实践的路线建议
11.1 小团队从离线偏好优化开始
如果资源有限,先做好 SFT、DPO/IPO/KTO 和可靠评测。
离线偏好优化更容易复现。
它不需要复杂 rollout 基础设施。
但仍然要注意数据质量、长度偏置和回归评测。
11.2 有可验证任务时优先尝试 RLVR
如果任务有清晰验证器,例如数学、代码、格式化抽取或工具成功率,可以优先构造 RLVR。
可验证奖励比偏好 reward 更贴近任务正确性。
但验证器要防投机,评测要独立。
11.3 在线 RL 前先建仪表盘
上线 PPO/GRPO 前,先建好指标系统。
KL、reward、entropy、length、ratio、clip fraction、eval、版本号缺一不可。
否则训练失败时只能猜。
11.4 自合成数据要慢慢放量
不要一开始就让合成数据占满训练集。
先小比例加入,观察回归和风格变化。
对合成数据做来源记录和去污染。
保留人工或外部验证 anchor。
11.5 Agentic RL 先做窄环境
Agent 任务复杂度高。
应从窄任务、可验证目标、隔离沙箱开始。
先让轨迹可回放,再谈大规模 RL。
工具调用失败、环境异常和权限问题都要进入数据记录。
十二、结语:快速变化中的不变量
未来几年,后训练方法还会继续变化。
新的优化目标会出现。
新的 judge 和 verifier 会出现。
新的 agent 环境会出现。
新的自生成数据飞轮会出现。
这是趋势判断,不是定论;至少可以看到几条相对清楚的方向:反馈会更自动,环境会更可验证,训练会更闭环。
不过不变量也清晰。
奖励不是目标本身。
评测必须独立。
策略更新必须受控。
数据闭环必须可追溯。
安全和回归必须一起看。
基础设施决定方法能否规模化。
如果只记住一句话,那就是:后训练不是把模型推向更高 reward,而是在受控反馈、可靠评测和可追溯数据中,把模型推向更可信的行为。
参考资料
论文与技术报告
- Yuntao Bai et al., 2022, “Constitutional AI: Harmlessness from AI Feedback”.
- Harrison Lee et al., 2023, “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”.
- Weizhe Yuan et al., 2024, “Self-Rewarding Language Models”.
- Zixiang Chen et al., 2024, “Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models”.
- David Silver et al., 2017, “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm”.
- David Silver et al., 2017, “Mastering the game of Go without human knowledge”, Nature.
- DeepSeek-AI, 2025, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”.
- Long Ouyang et al., 2022, “Training language models to follow instructions with human feedback”, NeurIPS.
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图
把强化学习到大模型后训练的主线压成一张可阅读地图,区分风格对齐与能力激发,并说明 20 篇文章的依赖关系。
【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测
把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线,说明每一阶段改变模型的哪一部分。
【强化学习与大模型后训练】12|GRPO:去掉 Critic 的组相对策略优化
解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic,保留 PPO 式裁剪与 KL 约束,并分析 DeepSeek-R1 语境下的收益和偏置。
【强化学习与大模型后训练】13|RLVR:可验证奖励如何训练推理能力
RLVR用规则或形式化验证器替代学习的奖励模型,以减少reward hacking、提高透明度,适用于数学、代码等具备ground truth的任务。