data-flywheel 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线，说明每一阶段改变模型的哪一部分。