reasoning 标签归档

共 4 篇文章 · 返回首页

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

2026-05-29 | rl-posttraining | #rl #llm #post-training #rlhf #dpo #rlvr #reasoning #alignment #roadmap

把强化学习到大模型后训练的主线压成一张可阅读地图，区分风格对齐与能力激发，并说明 20 篇文章的依赖关系。

【强化学习与大模型后训练】12｜GRPO：去掉 Critic 的组相对策略优化

2026-05-29 | rl-posttraining | #grpo #ppo #rloo #deepseekmath #deepseek-r1 #critic #rlvr #reasoning

解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic，保留 PPO 式裁剪与 KL 约束，并分析 DeepSeek-R1 语境下的收益和偏置。

【强化学习与大模型后训练】15｜过程奖励 PRM vs 结果奖励 ORM

2026-05-29 | rl-posttraining | #process reward model #PRM #ORM #outcome reward model #step-level supervision #PRM800K #Math-Shepherd #verifier #reasoning #RL #reward model

过程奖励模型（PRM）对推理的每个中间步骤打分，相比仅评估最终答案的ORM提供更密集的训练信号，但标注成本更高。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。