【强化学习与大模型后训练】17|RL 训练基础设施:采样-训练分离与 PPO 编排 2026-05-29 | rl-posttraining | #rlhf #ppo #rollout #vllm #sglang #fsdp #megatron #deepspeed #verl #openrlhf 从 rollout、奖励计算、价值估计到策略更新,拆解 LLM 在线 RL 的系统拓扑、资源瓶颈和同步边界。