【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图
把强化学习到大模型后训练的主线压成一张可阅读地图,区分风格对齐与能力激发,并说明 20 篇文章的依赖关系。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 21 篇文章 · 返回首页
把强化学习到大模型后训练的主线压成一张可阅读地图,区分风格对齐与能力激发,并说明 20 篇文章的依赖关系。
用面向语言模型的最小强化学习集合定义 MDP、回报、价值、优势和贝尔曼方程,并解释 token 级与序列级建模的差异。
从期望回报出发推导策略梯度与 REINFORCE,解释 log-derivative trick、基线降方差,以及它们在语言模型后训练中的含义。
解释 Actor-Critic 架构、优势估计和 GAE 的偏差—方差取舍,并映射到 LLM 后训练中的 value head 与 per-token advantage。
从信任域思想推到 PPO 裁剪目标,解释 KL 约束、完整损失和代码级实现细节,帮助读者判断一次策略更新是否安全。
把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线,说明每一阶段改变模型的哪一部分。
讲清 SFT 如何在指令回答对上做 next-token prediction,以及模板、loss mask、packing、学习率和数据质量如何影响后续 RL。
从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练,再讨论校准、集成、过优化与奖励黑客。
从 SFT 初始化、奖励模型、参考策略 KL 到 PPO 更新,串起 RLHF 的四模型训练闭环,并解释稳定性与工程成本。
从 KL 正则 RLHF 目标推导 DPO,解释隐式奖励、Bradley-Terry 替换、梯度含义,以及它省掉在线 PPO 的代价。
围绕 DPO 的关键假设,对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。
解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic,保留 PPO 式裁剪与 KL 约束,并分析 DeepSeek-R1 语境下的收益和偏置。
RLVR用规则或形式化验证器替代学习的奖励模型,以减少reward hacking、提高透明度,适用于数学、代码等具备ground truth的任务。
推理模型通过强化学习训练长思维链(long CoT),在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。
过程奖励模型(PRM)对推理的每个中间步骤打分,相比仅评估最终答案的ORM提供更密集的训练信号,但标注成本更高。
奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等,需通过KL惩罚、RLVR等手段缓解。
从 rollout、奖励计算、价值估计到策略更新,拆解 LLM 在线 RL 的系统拓扑、资源瓶颈和同步边界。
把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘,定位后训练崩溃与奖励黑客。
从偏好胜率、LLM-as-judge、推理基准、安全红队到能力回归,组织后训练模型的评测闭环。
从 RLAIF、宪法 AI、自奖励、自我对弈、Agentic RL 到可验证环境,总结后训练前沿与稳定原则。
从 MDP、策略梯度、PPO 等强化学习最小必要集出发,系统讲清现代大模型后训练:SFT、奖励模型、RLHF,到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO,再到 RLVR 可验证奖励、推理模型(o1/R1 范式)、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。