rloo 标签归档 | 土法炼钢兴趣小组的算法知识备份

rloo 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

2026-05-29 | rl-posttraining | #rl #policy-gradient #reinforce #rloo #baseline #variance-reduction #rlhf #language-model

从期望回报出发推导策略梯度与 REINFORCE，解释 log-derivative trick、基线降方差，以及它们在语言模型后训练中的含义。

【强化学习与大模型后训练】12｜GRPO：去掉 Critic 的组相对策略优化

2026-05-29 | rl-posttraining | #grpo #ppo #rloo #deepseekmath #deepseek-r1 #critic #rlvr #reasoning

解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic，保留 PPO 式裁剪与 KL 约束，并分析 DeepSeek-R1 语境下的收益和偏置。