reward-model 标签归档

共 4 篇文章 · 返回首页

【大模型基础设施工程】09：RLHF 与对齐流水线

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。

把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线，说明每一阶段改变模型的哪一部分。

从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练，再讨论校准、集成、过优化与奖励黑客。

从 SFT 初始化、奖励模型、参考策略 KL 到 PPO 更新，串起 RLHF 的四模型训练闭环，并解释稳定性与工程成本。