【Transformer 与注意力机制】34|Scaling Laws:为什么大模型常常不是“不够大”,而是“训不够”
从 Kaplan 到 Chinchilla,把 scaling laws 讲清楚:为什么 loss 会随着参数量、数据量、计算量呈幂律下降,为什么“更大模型”不是唯一答案,compute-optimal 训练到底在优化什么,以及为什么过去很多大模型其实不是参数太少,而是每个参数看到的 token 太少。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
从 Kaplan 到 Chinchilla,把 scaling laws 讲清楚:为什么 loss 会随着参数量、数据量、计算量呈幂律下降,为什么“更大模型”不是唯一答案,compute-optimal 训练到底在优化什么,以及为什么过去很多大模型其实不是参数太少,而是每个参数看到的 token 太少。
以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。