【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图
把强化学习到大模型后训练的主线压成一张可阅读地图,区分风格对齐与能力激发,并说明 20 篇文章的依赖关系。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 7 篇文章 · 返回首页
把强化学习到大模型后训练的主线压成一张可阅读地图,区分风格对齐与能力激发,并说明 20 篇文章的依赖关系。
把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线,说明每一阶段改变模型的哪一部分。
从 KL 正则 RLHF 目标推导 DPO,解释隐式奖励、Bradley-Terry 替换、梯度含义,以及它省掉在线 PPO 的代价。
围绕 DPO 的关键假设,对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。
从 MDP、策略梯度、PPO 等强化学习最小必要集出发,系统讲清现代大模型后训练:SFT、奖励模型、RLHF,到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO,再到 RLVR 可验证奖励、推理模型(o1/R1 范式)、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。
SFT 只能让模型学会模仿示范答案,不能充分表达“人更喜欢哪种回答”。本文把 RLHF 的主线讲透:奖励模型为什么出现,PPO 版本的 RLHF 解决了什么又带来了什么成本,DPO 为什么能绕开显式强化学习,GRPO 又为什么在可验证奖励和推理场景里流行起来。
从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践,覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。