compute-optimal 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】34｜Scaling Laws：为什么大模型常常不是“不够大”，而是“训不够”

2026-04-15 | transformer | #transformer #scaling-laws #chinchilla #kaplan #compute-optimal

从 Kaplan 到 Chinchilla，把 scaling laws 讲清楚：为什么 loss 会随着参数量、数据量、计算量呈幂律下降，为什么“更大模型”不是唯一答案，compute-optimal 训练到底在优化什么，以及为什么过去很多大模型其实不是参数太少，而是每个参数看到的 token 太少。