loss-mask 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】07｜监督微调（SFT）：指令数据、模板与训练细节

讲清 SFT 如何在指令回答对上做 next-token prediction，以及模板、loss mask、packing、学习率和数据质量如何影响后续 RL。