deepseek-r1 标签归档

共 3 篇文章 · 返回首页

【大模型基础设施工程】09：RLHF 与对齐流水线

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。

解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic，保留 PPO 式裁剪与 KL 约束，并分析 DeepSeek-R1 语境下的收益和偏置。

从 RLAIF、宪法 AI、自奖励、自我对弈、Agentic RL 到可验证环境，总结后训练前沿与稳定原则。