instruction-tuning 标签归档

【Transformer 与注意力机制】32｜指令微调：把“会续写”变成“会听话”

2026-04-15 | transformer | #transformer #instruction-tuning #sft #flan #instructgpt

预训练模型会补全，不等于会按人类意图回答。本文把 instruction tuning 的逻辑讲清楚：SFT 数据从哪里来，prompt-response 格式为什么能改写模型行为，FLAN、InstructGPT、Self-Instruct、LIMA、Orca 分别贡献了什么，以及为什么“会听话”本质上是分布重定向，而不是凭空长出新知识。

【强化学习与大模型后训练】07｜监督微调（SFT）：指令数据、模板与训练细节

【Transformer 与注意力机制】32｜指令微调：把“会续写”变成“会听话”