rlvr 标签归档 | 土法炼钢兴趣小组的算法知识备份

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

2026-05-29 | rl-posttraining | #rl #llm #post-training #rlhf #dpo #rlvr #reasoning #alignment #roadmap

把强化学习到大模型后训练的主线压成一张可阅读地图，区分风格对齐与能力激发，并说明 20 篇文章的依赖关系。

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

2026-05-29 | rl-posttraining | #post-training #sft #reward-model #rlhf #dpo #grpo #rlvr #evaluation #data-flywheel

把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线，说明每一阶段改变模型的哪一部分。

【强化学习与大模型后训练】12｜GRPO：去掉 Critic 的组相对策略优化

2026-05-29 | rl-posttraining | #grpo #ppo #rloo #deepseekmath #deepseek-r1 #critic #rlvr #reasoning

解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic，保留 PPO 式裁剪与 KL 约束，并分析 DeepSeek-R1 语境下的收益和偏置。

【强化学习与大模型后训练】20｜前沿与展望：自我对弈、宪法 AI、Agentic RL、合成数据飞轮

2026-05-29 | rl-posttraining | #rlhf #rlaif #constitutional-ai #self-play #self-reward #agentic-rl #synthetic-data #rlvr #deepseek-r1

从 RLAIF、宪法 AI、自奖励、自我对弈、Agentic RL 到可验证环境，总结后训练前沿与稳定原则。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。