rl 标签归档 | 土法炼钢兴趣小组的算法知识备份

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

2026-05-29 | rl-posttraining | #rl #llm #post-training #rlhf #dpo #rlvr #reasoning #alignment #roadmap

把强化学习到大模型后训练的主线压成一张可阅读地图，区分风格对齐与能力激发，并说明 20 篇文章的依赖关系。

【强化学习与大模型后训练】02｜MDP、回报与贝尔曼方程

2026-05-29 | rl-posttraining | #rl #mdp #bellman-equation #return #value-function #advantage #language-model #rlhf

用面向语言模型的最小强化学习集合定义 MDP、回报、价值、优势和贝尔曼方程，并解释 token 级与序列级建模的差异。

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

2026-05-29 | rl-posttraining | #rl #policy-gradient #reinforce #rloo #baseline #variance-reduction #rlhf #language-model

从期望回报出发推导策略梯度与 REINFORCE，解释 log-derivative trick、基线降方差，以及它们在语言模型后训练中的含义。

【强化学习与大模型后训练】04｜Actor-Critic 与优势函数、GAE

2026-05-29 | rl-posttraining | #rl #actor-critic #gae #advantage #value-head #ppo #rlhf #temporal-difference

解释 Actor-Critic 架构、优势估计和 GAE 的偏差—方差取舍，并映射到 LLM 后训练中的 value head 与 per-token advantage。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。