value-head 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】04｜Actor-Critic 与优势函数、GAE

解释 Actor-Critic 架构、优势估计和 GAE 的偏差—方差取舍，并映射到 LLM 后训练中的 value head 与 per-token advantage。