【Transformer 与注意力机制】34|Scaling Laws:为什么大模型常常不是“不够大”,而是“训不够”
从 Kaplan 到 Chinchilla,把 scaling laws 讲清楚:为什么 loss 会随着参数量、数据量、计算量呈幂律下降,为什么“更大模型”不是唯一答案,compute-optimal 训练到底在优化什么,以及为什么过去很多大模型其实不是参数太少,而是每个参数看到的 token 太少。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
从 Kaplan 到 Chinchilla,把 scaling laws 讲清楚:为什么 loss 会随着参数量、数据量、计算量呈幂律下降,为什么“更大模型”不是唯一答案,compute-optimal 训练到底在优化什么,以及为什么过去很多大模型其实不是参数太少,而是每个参数看到的 token 太少。