【强化学习与大模型后训练】03|策略梯度与 REINFORCE 2026-05-29 | rl-posttraining | #rl #policy-gradient #reinforce #rloo #baseline #variance-reduction #rlhf #language-model 从期望回报出发推导策略梯度与 REINFORCE,解释 log-derivative trick、基线降方差,以及它们在语言模型后训练中的含义。