【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测 2026-05-29 | rl-posttraining | #post-training #sft #reward-model #rlhf #dpo #grpo #rlvr #evaluation #data-flywheel 把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线,说明每一阶段改变模型的哪一部分。