【Transformer 与注意力机制】33|RLHF:从 PPO 到 DPO,再到 GRPO
SFT 只能让模型学会模仿示范答案,不能充分表达“人更喜欢哪种回答”。本文把 RLHF 的主线讲透:奖励模型为什么出现,PPO 版本的 RLHF 解决了什么又带来了什么成本,DPO 为什么能绕开显式强化学习,GRPO 又为什么在可验证奖励和推理场景里流行起来。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
SFT 只能让模型学会模仿示范答案,不能充分表达“人更喜欢哪种回答”。本文把 RLHF 的主线讲透:奖励模型为什么出现,PPO 版本的 RLHF 解决了什么又带来了什么成本,DPO 为什么能绕开显式强化学习,GRPO 又为什么在可验证奖励和推理场景里流行起来。
从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践,覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。