alignment 标签归档 | 土法炼钢兴趣小组的算法知识备份

alignment 标签归档

共 9 篇文章 · 返回首页

【大模型基础设施工程】09：RLHF 与对齐流水线

2026-04-22 | architecture · ai-infra | #llm #infra #rlhf #ppo #dpo #grpo #reward-model #alignment #deepseek-r1 #openai-o1 #trl #openrlhf

从 SFT、奖励模型到 PPO、DPO、GRPO 的完整对齐流水线工程实践，覆盖 OpenAI o1、DeepSeek-R1 等推理模型的 RL 路线与主流框架选型。

【强化学习与大模型后训练】09｜RLHF 全链路：用 PPO 对齐语言模型

2026-05-29 | rl-posttraining | #rlhf #ppo #reward-model #kl-penalty #gae #instructgpt #alignment

从 SFT 初始化、奖励模型、参考策略 KL 到 PPO 更新，串起 RLHF 的四模型训练闭环，并解释稳定性与工程成本。

【强化学习与大模型后训练】10｜DPO：把 RLHF 变成一个分类损失

2026-05-29 | rl-posttraining | #dpo #rlhf #preference-optimization #bradley-terry #implicit-reward #alignment

从 KL 正则 RLHF 目标推导 DPO，解释隐式奖励、Bradley-Terry 替换、梯度含义，以及它省掉在线 PPO 的代价。

【存储工程】Direct I/O 与 O_DIRECT：绕过缓存的得与失

2025-08-19 | storage | #direct-io #o-direct #page-cache #database-io #alignment #fsync

O_DIRECT 的语义、对齐约束、文件系统坑与何时该/不该绕过 Page Cache；io_uring 组合路径见 #79。

【GPU 算子工程】访存优化：合并访问、bank conflict 与对齐

2026-06-28 | gpu · architecture | #cuda #memory-coalescing #bank-conflict #shared-memory #alignment #bandwidth

global memory 合并访问与 shared memory bank conflict 是 GPU 访存优化的两大主题。实测跨步访问让有效带宽从 412 跌到 90 GB/s，32 路 bank conflict 让 shared 访问慢 11 倍。讲清成因与规避方法。

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

2026-05-29 | rl-posttraining | #rl #llm #post-training #rlhf #dpo #rlvr #reasoning #alignment #roadmap

把强化学习到大模型后训练的主线压成一张可阅读地图，区分风格对齐与能力激发，并说明 20 篇文章的依赖关系。

【强化学习与大模型后训练】11｜DPO 家族：IPO、KTO、ORPO、SimPO 的取舍

2026-05-29 | rl-posttraining | #dpo #ipo #kto #orpo #simpo #preference-optimization #alignment

围绕 DPO 的关键假设，对比 IPO、KTO、ORPO、SimPO 在数据形态、参考模型、长度偏置和训练阶段上的取舍。

【强化学习与大模型后训练】13｜RLVR：可验证奖励如何训练推理能力

2026-05-29 | rl-posttraining | #RLVR #verifiable rewards #reward hacking #DeepSeek-R1 #rule-based reward #reinforcement learning #reasoning models #reward model #alignment #safety

RLVR用规则或形式化验证器替代学习的奖励模型，以减少reward hacking、提高透明度，适用于数学、代码等具备ground truth的任务。

强化学习与大模型后训练

2026-05-29 | rl-posttraining | #rl #rlhf #dpo #grpo #ppo #post-training #reasoning #rlvr #alignment #llm

从 MDP、策略梯度、PPO 等强化学习最小必要集出发，系统讲清现代大模型后训练：SFT、奖励模型、RLHF，到 DPO/IPO/KTO/ORPO/SimPO 免 RL 对齐、GRPO，再到 RLVR 可验证奖励、推理模型（o1/R1 范式）、过程奖励、奖励黑客、RL 训练基础设施与评测。全 20 篇深度博客。