language-model 标签归档 | 土法炼钢兴趣小组的算法知识备份

language-model 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】02｜MDP、回报与贝尔曼方程

2026-05-29 | rl-posttraining | #rl #mdp #bellman-equation #return #value-function #advantage #language-model #rlhf

用面向语言模型的最小强化学习集合定义 MDP、回报、价值、优势和贝尔曼方程，并解释 token 级与序列级建模的差异。

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

2026-05-29 | rl-posttraining | #rl #policy-gradient #reinforce #rloo #baseline #variance-reduction #rlhf #language-model

从期望回报出发推导策略梯度与 REINFORCE，解释 log-derivative trick、基线降方差，以及它们在语言模型后训练中的含义。