sft 标签归档

共 4 篇文章 · 返回首页

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

2026-04-22 | architecture · ai-infra | #llm #infra #training #pretrain #sft #rlhf #scaling-law #adamw #tokenizer #deepseek #chinchilla

以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

2026-05-29 | rl-posttraining | #post-training #sft #reward-model #rlhf #dpo #grpo #rlvr #evaluation #data-flywheel

把现代后训练拆成数据、目标函数、采样、奖励和评测组成的系统流水线，说明每一阶段改变模型的哪一部分。

【强化学习与大模型后训练】07｜监督微调（SFT）：指令数据、模板与训练细节

2026-05-29 | rl-posttraining | #sft #instruction-tuning #chat-template #loss-mask #packing #lima #self-instruct #alpaca

讲清 SFT 如何在指令回答对上做 next-token prediction，以及模板、loss mask、packing、学习率和数据质量如何影响后续 RL。

【Transformer 与注意力机制】32｜指令微调：把“会续写”变成“会听话”

2026-04-15 | transformer | #transformer #instruction-tuning #sft #flan #instructgpt

预训练模型会补全，不等于会按人类意图回答。本文把 instruction tuning 的逻辑讲清楚：SFT 数据从哪里来，prompt-response 格式为什么能改写模型行为，FLAN、InstructGPT、Self-Instruct、LIMA、Orca 分别贡献了什么，以及为什么“会听话”本质上是分布重定向，而不是凭空长出新知识。