compute-optimal 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】34|Scaling Laws:为什么大模型常常不是“不够大”,而是“训不够”

从 Kaplan 到 Chinchilla,把 scaling laws 讲清楚:为什么 loss 会随着参数量、数据量、计算量呈幂律下降,为什么“更大模型”不是唯一答案,compute-optimal 训练到底在优化什么,以及为什么过去很多大模型其实不是参数太少,而是每个参数看到的 token 太少。