openrlhf 标签归档 | 土法炼钢兴趣小组的算法知识备份

openrlhf 标签归档

共 2 篇文章 · 返回首页

【大模型基础设施工程】09：RLHF 与对齐流水线

2026-04-22 | architecture · ai-infra | #llm #infra #rlhf #ppo #dpo #grpo #reward-model #alignment #deepseek-r1 #openai-o1 #trl #openrlhf

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。

【强化学习与大模型后训练】17｜RL 训练基础设施：采样-训练分离与 PPO 编排

2026-05-29 | rl-posttraining | #rlhf #ppo #rollout #vllm #sglang #fsdp #megatron #deepspeed #verl #openrlhf

从 rollout、奖励计算、价值估计到策略更新，拆解 LLM 在线 RL 的系统拓扑、资源瓶颈和同步边界。