dpo 标签归档 | 土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】09：RLHF 与对齐流水线

2026-04-22 | architecture · ai-infra | #llm #infra #rlhf #ppo #dpo #grpo #reward-model #alignment #deepseek-r1 #openai-o1 #trl #openrlhf

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。

【强化学习与大模型后训练】10｜DPO：把 RLHF 变成一个分类损失

2026-05-29 | rl-posttraining | #dpo #rlhf #preference-optimization #bradley-terry #implicit-reward #alignment

从 KL 正则 RLHF 目标推导 DPO，解释隐式奖励、Bradley-Terry 替换、梯度含义，以及它省掉在线 PPO 的代价。

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

2026-05-29 | rl-posttraining | #rl #llm #post-training #rlhf #dpo #rlvr #reasoning #alignment #roadmap

把强化学习到大模型后训练的主线压成一张可阅读地图，区分风格对齐与能力激发，并说明 20 篇文章的依赖关系。

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

2026-05-29 | rl-posttraining | #post-training #sft #reward-model #rlhf #dpo #grpo #rlvr #evaluation #data-flywheel

把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线，说明每一阶段改变模型的哪一部分。

【强化学习与大模型后训练】11｜DPO 家族：IPO、KTO、ORPO、SimPO 的取舍

2026-05-29 | rl-posttraining | #dpo #ipo #kto #orpo #simpo #preference-optimization #alignment

围绕 DPO 的关键假设，对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。

【Transformer 与注意力机制】33｜RLHF：从 PPO 到 DPO，再到 GRPO

2026-04-15 | transformer | #transformer #rlhf #ppo #dpo #grpo

SFT 只能让模型学会模仿示范答案，不能充分表达“人更喜欢哪种回答”。本文把 RLHF 的主线讲透：奖励模型为什么出现，PPO 版本的 RLHF 解决了什么又带来了什么成本，DPO 为什么能绕开显式强化学习，GRPO 又为什么在可验证奖励和推理场景里流行起来。