openai-o1 标签归档

共 1 篇文章 · 返回首页

【大模型基础设施工程】09：RLHF 与对齐流水线

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。