ppo 标签归档 | 土法炼钢兴趣小组的算法知识备份

ppo 标签归档

共 9 篇文章 · 返回首页

【大模型基础设施工程】09：RLHF 与对齐流水线

2026-04-22 | architecture · ai-infra | #llm #infra #rlhf #ppo #dpo #grpo #reward-model #alignment #deepseek-r1 #openai-o1 #trl #openrlhf

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。

【强化学习与大模型后训练】09｜RLHF 全链路：用 PPO 对齐语言模型

2026-05-29 | rl-posttraining | #rlhf #ppo #reward-model #kl-penalty #gae #instructgpt #alignment

从 SFT 初始化、奖励模型、参考策略 KL 到 PPO 更新，串起 RLHF 的四模型训练闭环，并解释稳定性与工程成本。

【强化学习与大模型后训练】04｜Actor-Critic 与优势函数、GAE

2026-05-29 | rl-posttraining | #rl #actor-critic #gae #advantage #value-head #ppo #rlhf #temporal-difference

解释 Actor-Critic 架构、优势估计和 GAE 的偏差—方差取舍，并映射到 LLM 后训练中的 value head 与 per-token advantage。

【强化学习与大模型后训练】05｜PPO 深度解剖：裁剪目标、KL 约束与实现陷阱

2026-05-29 | rl-posttraining | #ppo #trpo #policy-gradient #gae #rlhf #kl-penalty #implementation-details #advantage-normalization

从信任域思想推到 PPO 裁剪目标，解释 KL 约束、完整损失和代码级实现细节，帮助读者判断一次策略更新是否安全。

【强化学习与大模型后训练】12｜GRPO：去掉 Critic 的组相对策略优化

2026-05-29 | rl-posttraining | #grpo #ppo #rloo #deepseekmath #deepseek-r1 #critic #rlvr #reasoning

解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic，保留 PPO 式裁剪与 KL 约束，并分析 DeepSeek-R1 语境下的收益和偏置。

【强化学习与大模型后训练】17｜RL 训练基础设施：采样-训练分离与 PPO 编排

2026-05-29 | rl-posttraining | #rlhf #ppo #rollout #vllm #sglang #fsdp #megatron #deepspeed #verl #openrlhf

从 rollout、奖励计算、价值估计到策略更新，拆解 LLM 在线 RL 的系统拓扑、资源瓶颈和同步边界。

【强化学习与大模型后训练】18｜训练稳定性：KL、熵、长度偏置与崩溃诊断

2026-05-29 | rl-posttraining | #rlhf #ppo #kl #entropy #reward-hacking #stability #diagnostics #rlhf-implementation

把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘，定位后训练崩溃与奖励黑客。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。

【Transformer 与注意力机制】33｜RLHF：从 PPO 到 DPO，再到 GRPO

2026-04-15 | transformer | #transformer #rlhf #ppo #dpo #grpo

SFT 只能让模型学会模仿示范答案，不能充分表达“人更喜欢哪种回答”。本文把 RLHF 的主线讲透：奖励模型为什么出现，PPO 版本的 RLHF 解决了什么又带来了什么成本，DPO 为什么能绕开显式强化学习，GRPO 又为什么在可验证奖励和推理场景里流行起来。