verl 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】17｜RL 训练基础设施：采样-训练分离与 PPO 编排

从 rollout、奖励计算、价值估计到策略更新，拆解 LLM 在线 RL 的系统拓扑、资源瓶颈和同步边界。