土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】34|Scaling Laws:为什么大模型常常不是“不够大”,而是“训不够”

文章导航

分类入口
transformer
标签入口
#transformer#scaling-laws#chinchilla#kaplan#compute-optimal

目录

“大模型为什么更强”这个问题,最糟糕的回答就是一句空话:因为参数更多。这个回答在表面上没错,但几乎没有解释力。真正重要的问题是:

  1. 性能随参数增长,究竟按什么规律变好?
  2. 只有加参数才有用,还是数据和算力也同样关键?
  3. 在固定算力预算下,应该训更大的模型,还是让稍小模型多看数据?

Scaling Laws 研究真正回答的,就是这三件事。它把“越大越强”从一句模糊经验,变成了可以讨论 trade-off 的工程规律。

如果只记一句最有价值的结论,那就是:很多大模型不是“不够大”,而是“每个参数看过的 token 不够多”。 这就是后来 Chinchilla 法则带来的震动。


一、什么叫 scaling law

在深度学习语境里,scaling law 指的是:当模型规模、数据规模、训练计算量持续增大时,损失或性能指标常常会按近似幂律(power law)规律改善。

直觉上可以写成类似:

\[ L(N, D, C) \approx A N^{-\alpha} + B D^{-\beta} + E \]

这里:

这条式子不要当成放之四海而皆准的精确定理,但它抓住了一个很稳定的经验事实:在相当宽的范围内,继续加模型、加数据、加计算,收益不是突然中断的,而是平滑递减。

1.1 这和“饱和点”思维完全不同

很多早期机器学习直觉是:模型大到一定程度就会饱和,再往上加没意义。Scaling laws 研究告诉我们,至少在很长一段区间里,事情并不是这样。收益会递减,但不会很快归零。

这对工业界的含义非常直接:如果规律还没明显断掉,继续堆规模就可能继续换来收益。


二、Kaplan 的贡献:第一次把“大”写成了规律

2020 年 OpenAI 的 Kaplan scaling laws 工作,是这条线真正出圈的起点。

2.1 它回答的不是“某个模型多强”,而是“规模变化会怎样”

Kaplan 等人做了大量不同参数量、不同数据量、不同计算预算的语言模型实验,观察 cross-entropy loss 如何变化。最重要的结论不是某个单点指标,而是:

换句话说,模型变强不是玄学,而是有形状可循。

2.2 这让“继续做更大模型”第一次变得有理论支撑

在 Kaplan 之前,做更大模型当然也有人尝试,但更像“拍脑袋试试”。Scaling laws 之后,行业获得了一种新的信心:

如果我们还处在幂律区间里,继续放大模型和数据,大概率还能稳定获益。

这其实为 GPT-3、PaLM、LLaMA 之后整轮规模竞赛提供了非常强的心理和资源正当性。

2.3 但 Kaplan 时代的 compute-optimal 结论后来被修正了

这里要小心。Kaplan 的结论里一个很有影响力的暗含建议是:在固定算力下,似乎值得优先把模型做大,即便训练 token 数相对没那么多。

后来的 Chinchilla 工作证明,这个方向在很多现实区间里其实过度偏向“大模型、少训练”。这就引出了下一阶段的修正。


三、Chinchilla 的核心:很多模型其实“训不够”

Hoffmann 等人 2022 年的 Chinchilla 工作,几乎是 scaling laws 历史上的第二次地震。

3.1 关键问题变了:固定计算预算下,参数和数据怎么配

Chinchilla 没有否定“更大模型更强”,它修正的是另一件事:

在固定训练 FLOPs 下,最优策略不一定是把参数尽量做大,而是让参数量和训练 token 数保持更合理比例。

3.2 最出圈的经验法则:大约 20 tokens / parameter

这条经验法则后来传播得非常广:一个 compute-optimal 的语言模型,训练 token 数应该和参数量大致同量级,常见口径是每个参数大约看到 20 个 token 左右。

这意味着:

3.3 为什么这会改变行业判断

因为它直接改写了“模型做多大”的投资逻辑。

在 Chinchilla 之后,训练一个强模型不再只是拼参数量,还要问:

这让“数据工程”和“训练预算分配”突然从配角变成了主角。


四、compute-optimal 到底在优化什么

“compute-optimal” 这词很容易被误读成“绝对最强”。其实它更准确的意思是:

在固定总训练计算预算下,怎样分配模型大小和训练数据,能把最终 loss 压到最低。

4.1 不是参数越多越 compute-optimal

参数更多当然可能上限更高,但前提是你还要有足够计算把它训够。如果预算固定,过大的模型会出现一种常见情况:

这就是“undertrained large model”的典型形态。

4.2 也不是数据越多越一定更好

反过来,如果模型太小,数据再多也可能吃不下。模型容量不够时,继续堆 token 的收益会下降。compute-optimal 的本质,就是找这两个边际收益的平衡点。

4.3 所以 scaling laws 不是“大力出奇迹”,而是预算分配学

真正成熟的理解应该是:

这三者必须一起看。


五、为什么 scaling laws 会改变模型研发流程

它的影响不只是论文层面的解释,而是工程流程本身。

5.1 先做小实验,再外推

有了 scaling laws 思维后,团队不会一上来就拍脑袋训最大模型,而会先做一系列小规模 sweep:

然后再推测更大规模点值大概会落在哪里。

5.2 训练决策更像资本配置

训练预算有限时,你其实在做一个配置问题:

scaling laws 给这个问题提供了量化框架。

5.3 评估也不再只看 benchmark 单点

团队会越来越关心:

这是一套比“榜单涨没涨”更深的研发视角。


六、为什么 Chinchilla 之后“数据”突然变得更贵了

如果每个参数都需要足够多的 token 才能训透,那高质量数据就不再只是“有更好,没有也行”的加分项,而是硬约束。

6.1 你不能只靠重复低质量数据喂饱模型

Chinchilla 讲的是 token 数量,但现实里 token 质量同样重要。重复、污染、模板化、低信息密度的数据,名义上增加了 token,实际上不一定等于有效训练信号。

6.2 数据工程因此从幕后走到前台

这也是为什么近几年越来越多团队把精力花在:

因为 scaling laws 告诉你:如果数据真的成了瓶颈,模型再大也吃不满。

这件事会在下一篇展开。


七、scaling laws 的边界和误用

这套规律很强,但也不能当成万能预测器。

7.1 它描述的是区间规律,不是永恒定律

幂律关系通常只在一定规模区间内拟合得好。超出分布、换目标、换数据质量、换架构后,斜率和常数项都可能变。

7.2 loss 下降不自动等于所有能力都线性提升

很多能力——推理、工具使用、长上下文、代码执行——和纯语言建模 loss 的关系并不总是平滑线性。有时会出现阶段性涌现、接口瓶颈或评测失真。

7.3 它不能替代具体实验

scaling laws 给你的是趋势判断,不是免实验通行证。一个团队如果拿着别人论文里的比例,完全不做自己数据和架构上的 sweep,照样可能训偏。


八、几个常见误解

8.1 “scaling laws 的结论就是模型越大越好”

太粗了。更准确的说法是:在很多区间里,增大模型、数据、计算都会继续带来收益,但必须考虑三者配比。

8.2 “Chinchilla 否定了大模型路线”

没有。它否定的是“只顾放大参数、却不给足训练 token”的做法,不是否定大模型本身。

8.3 “20 tokens / parameter 是铁律”

不是。它是某一类语言模型和训练设置下非常有用的经验法则,不是放之四海而皆准的宇宙常数。

8.4 “只要 token 数够多,模型一定最优”

也不对。数据质量、训练稳定性、优化器设置、架构细节都会影响最终结果。

8.5 “loss 降得更低,就等于用户体验一定更好”

不总是。loss 是非常重要的基础指标,但对齐性、工具使用、长上下文、输出风格等问题还需要别的训练阶段和评估维度。


九、结语

Scaling laws 真正把“大模型时代”从热情变成方法论的地方,在于它让我们第一次能系统地讨论:参数、数据、算力到底该怎么配。Kaplan 让行业相信继续做大还有稳健收益;Chinchilla 则进一步提醒大家,很多模型不是不够大,而是明显训不够。这个修正非常重要,因为它把“继续放大参数”的单轴竞赛,变成了“容量、数据和计算三者协同”的多轴优化问题。

理解了这一点,下一篇谈数据工程时你就会更容易明白:为什么数据不再只是燃料,而是直接决定 scaling 能不能兑现的那一半。


十、参考文献

  1. Hestness, J. et al. “Deep Learning Scaling is Predictable, Empirically.” arXiv:1712.00409, 2017. 早期 scaling 经验规律工作。
  2. Kaplan, J. et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361, 2020. 语言模型 scaling laws 的标志性论文。
  3. Hoffmann, J. et al. “Training Compute-Optimal Large Language Models.” arXiv:2203.15556, 2022. Chinchilla 法则的原始论文。
  4. Besiroglu, T. et al. “The Chinchilla Scaling Laws and Beyond.” Epoch AI report, 2024. 对后续 scaling 讨论的整理性材料。

← 上一篇:33|RLHF | 下一篇:35|数据工程

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .