instructgpt 标签归档 | 土法炼钢兴趣小组的算法知识备份

【强化学习与大模型后训练】09｜RLHF 全链路：用 PPO 对齐语言模型

2026-05-29 | rl-posttraining | #rlhf #ppo #reward-model #kl-penalty #gae #instructgpt #alignment

从 SFT 初始化、奖励模型、参考策略 KL 到 PPO 更新，串起 RLHF 的四模型训练闭环，并解释稳定性与工程成本。

【Transformer 与注意力机制】32｜指令微调：把“会续写”变成“会听话”

2026-04-15 | transformer | #transformer #instruction-tuning #sft #flan #instructgpt

预训练模型会补全，不等于会按人类意图回答。本文把 instruction tuning 的逻辑讲清楚：SFT 数据从哪里来，prompt-response 格式为什么能改写模型行为，FLAN、InstructGPT、Self-Instruct、LIMA、Orca 分别贡献了什么，以及为什么“会听话”本质上是分布重定向，而不是凭空长出新知识。