rl-posttraining 分类归档 | 土法炼钢兴趣小组的算法知识备份

rl-posttraining 分类归档

共 21 篇文章 · 返回首页

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

2026-05-29 | rl-posttraining | #rl #llm #post-training #rlhf #dpo #rlvr #reasoning #alignment #roadmap

把强化学习到大模型后训练的主线压成一张可阅读地图，区分风格对齐与能力激发，并说明 20 篇文章的依赖关系。

【强化学习与大模型后训练】02｜MDP、回报与贝尔曼方程

2026-05-29 | rl-posttraining | #rl #mdp #bellman-equation #return #value-function #advantage #language-model #rlhf

用面向语言模型的最小强化学习集合定义 MDP、回报、价值、优势和贝尔曼方程，并解释 token 级与序列级建模的差异。

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

2026-05-29 | rl-posttraining | #rl #policy-gradient #reinforce #rloo #baseline #variance-reduction #rlhf #language-model

从期望回报出发推导策略梯度与 REINFORCE，解释 log-derivative trick、基线降方差，以及它们在语言模型后训练中的含义。

【强化学习与大模型后训练】04｜Actor-Critic 与优势函数、GAE

2026-05-29 | rl-posttraining | #rl #actor-critic #gae #advantage #value-head #ppo #rlhf #temporal-difference

解释 Actor-Critic 架构、优势估计和 GAE 的偏差—方差取舍，并映射到 LLM 后训练中的 value head 与 per-token advantage。

【强化学习与大模型后训练】05｜PPO 深度解剖：裁剪目标、KL 约束与实现陷阱

2026-05-29 | rl-posttraining | #ppo #trpo #policy-gradient #gae #rlhf #kl-penalty #implementation-details #advantage-normalization

从信任域思想推到 PPO 裁剪目标，解释 KL 约束、完整损失和代码级实现细节，帮助读者判断一次策略更新是否安全。

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

2026-05-29 | rl-posttraining | #post-training #sft #reward-model #rlhf #dpo #grpo #rlvr #evaluation #data-flywheel

把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线，说明每一阶段改变模型的哪一部分。

【强化学习与大模型后训练】07｜监督微调（SFT）：指令数据、模板与训练细节

2026-05-29 | rl-posttraining | #sft #instruction-tuning #chat-template #loss-mask #packing #lima #self-instruct #alpaca

讲清 SFT 如何在指令回答对上做 next-token prediction，以及模板、loss mask、packing、学习率和数据质量如何影响后续 RL。

【强化学习与大模型后训练】08｜奖励模型：偏好数据、Bradley-Terry 与奖励黑客

2026-05-29 | rl-posttraining | #reward-model #preference-data #bradley-terry #rlhf #goodhart #reward-hacking #hh-rlhf #overoptimization

从成对偏好数据和 Bradley-Terry 损失解释奖励模型训练，再讨论校准、集成、过优化与奖励黑客。

【强化学习与大模型后训练】09｜RLHF 全链路：用 PPO 对齐语言模型

2026-05-29 | rl-posttraining | #rlhf #ppo #reward-model #kl-penalty #gae #instructgpt #alignment

从 SFT 初始化、奖励模型、参考策略 KL 到 PPO 更新，串起 RLHF 的四模型训练闭环，并解释稳定性与工程成本。

【强化学习与大模型后训练】10｜DPO：把 RLHF 变成一个分类损失

2026-05-29 | rl-posttraining | #dpo #rlhf #preference-optimization #bradley-terry #implicit-reward #alignment

从 KL 正则 RLHF 目标推导 DPO，解释隐式奖励、Bradley-Terry 替换、梯度含义，以及它省掉在线 PPO 的代价。

【强化学习与大模型后训练】11｜DPO 家族：IPO、KTO、ORPO、SimPO 的取舍

2026-05-29 | rl-posttraining | #dpo #ipo #kto #orpo #simpo #preference-optimization #alignment

围绕 DPO 的关键假设，对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。

【强化学习与大模型后训练】12｜GRPO：去掉 Critic 的组相对策略优化

2026-05-29 | rl-posttraining | #grpo #ppo #rloo #deepseekmath #deepseek-r1 #critic #rlvr #reasoning

解释 GRPO 如何用同一 prompt 下的组内相对奖励替代 critic，保留 PPO 式裁剪与 KL 约束，并分析 DeepSeek-R1 语境下的收益和偏置。

【强化学习与大模型后训练】13｜RLVR：可验证奖励如何训练推理能力

2026-05-29 | rl-posttraining | #RLVR #verifiable rewards #reward hacking #DeepSeek-R1 #rule-based reward #reinforcement learning #reasoning models #reward model #alignment #safety

RLVR用规则或形式化验证器替代学习的奖励模型，以减少reward hacking、提高透明度，适用于数学、代码等具备ground truth的任务。

【强化学习与大模型后训练】14｜推理模型训练：o1/R1 范式与长思维链

2026-05-29 | rl-posttraining | #reasoning models #o1 #DeepSeek-R1 #chain-of-thought #CoT #reinforcement learning #test-time compute #scaling #distillation #RLVR

推理模型通过强化学习训练长思维链（long CoT），在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。

【强化学习与大模型后训练】15｜过程奖励 PRM vs 结果奖励 ORM

2026-05-29 | rl-posttraining | #process reward model #PRM #ORM #outcome reward model #step-level supervision #PRM800K #Math-Shepherd #verifier #reasoning #RL #reward model

过程奖励模型（PRM）对推理的每个中间步骤打分，相比仅评估最终答案的ORM提供更密集的训练信号，但标注成本更高。

【强化学习与大模型后训练】16｜奖励黑客与对齐税：失效模式与缓解

2026-05-29 | rl-posttraining | #reward hacking #reward gaming #overoptimization #RM exploitation #length bias #sycophancy #KL penalty #RLVR #alignment tax #safety

奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等，需通过KL惩罚、RLVR等手段缓解。

【强化学习与大模型后训练】17｜RL 训练基础设施：采样-训练分离与 PPO 编排

2026-05-29 | rl-posttraining | #rlhf #ppo #rollout #vllm #sglang #fsdp #megatron #deepspeed #verl #openrlhf

从 rollout、奖励计算、价值估计到策略更新，拆解 LLM 在线 RL 的系统拓扑、资源瓶颈和同步边界。

【强化学习与大模型后训练】18｜训练稳定性：KL、熵、长度偏置与崩溃诊断

2026-05-29 | rl-posttraining | #rlhf #ppo #kl #entropy #reward-hacking #stability #diagnostics #rlhf-implementation

把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘，定位后训练崩溃与奖励黑客。

【强化学习与大模型后训练】19｜后训练评测：对齐、推理、安全与回归

2026-05-29 | rl-posttraining | #rlhf #evaluation #llm-as-judge #mt-bench #alpacaeval #gsm8k #math #safety #regression

从偏好胜率、LLM-as-judge、推理基准、安全红队到能力回归，组织后训练模型的评测闭环。

【强化学习与大模型后训练】20｜前沿与展望：自我对弈、宪法 AI、Agentic RL、合成数据飞轮

2026-05-29 | rl-posttraining | #rlhf #rlaif #constitutional-ai #self-play #self-reward #agentic-rl #synthetic-data #rlvr #deepseek-r1

从 RLAIF、宪法 AI、自奖励、自我对弈、Agentic RL 到可验证环境，总结后训练前沿与稳定原则。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。