variance-reduction 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

从期望回报出发推导策略梯度与 REINFORCE，解释 log-derivative trick、基线降方差，以及它们在语言模型后训练中的含义。