chinchilla 标签归档 | 土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

2026-04-22 | architecture · ai-infra | #llm #infra #training #pretrain #sft #rlhf #scaling-law #adamw #tokenizer #deepseek #chinchilla

以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。

【Transformer 与注意力机制】34｜Scaling Laws：为什么大模型常常不是“不够大”，而是“训不够”

2026-04-15 | transformer | #transformer #scaling-laws #chinchilla #kaplan #compute-optimal

从 Kaplan 到 Chinchilla，把 scaling laws 讲清楚：为什么 loss 会随着参数量、数据量、计算量呈幂律下降，为什么“更大模型”不是唯一答案，compute-optimal 训练到底在优化什么，以及为什么过去很多大模型其实不是参数太少，而是每个参数看到的 token 太少。