【Transformer 与注意力机制】34｜Scaling Laws：为什么大模型常常不是“不够大”，而是“训不够”

“大模型为什么更强”这个问题，最糟糕的回答就是一句空话：因为参数更多。这个回答在表面上没错，但几乎没有解释力。真正重要的问题是：

性能随参数增长，究竟按什么规律变好？
只有加参数才有用，还是数据和算力也同样关键？
在固定算力预算下，应该训更大的模型，还是让稍小模型多看数据？

Scaling Laws 研究真正回答的，就是这三件事。它把“越大越强”从一句模糊经验，变成了可以讨论 trade-off 的工程规律。

如果只记一句最有价值的结论，那就是：很多大模型不是“不够大”，而是“每个参数看过的 token 不够多”。 这就是后来 Chinchilla 法则带来的震动。

一、什么叫 scaling law

在深度学习语境里，scaling law 指的是：当模型规模、数据规模、训练计算量持续增大时，损失或性能指标常常会按近似幂律（power law）规律改善。

直觉上可以写成类似：

\[ L(N, D, C) \approx A N^{-\alpha} + B D^{-\beta} + E \]

这里：

\(N\) 表示参数量；
\(D\) 表示训练数据量（常用 token 数衡量）；
\(C\) 表示训练计算量；
\(L\) 是损失或误差。

这条式子不要当成放之四海而皆准的精确定理，但它抓住了一个很稳定的经验事实：在相当宽的范围内，继续加模型、加数据、加计算，收益不是突然中断的，而是平滑递减。

1.1 这和“饱和点”思维完全不同

很多早期机器学习直觉是：模型大到一定程度就会饱和，再往上加没意义。Scaling laws 研究告诉我们，至少在很长一段区间里，事情并不是这样。收益会递减，但不会很快归零。

这对工业界的含义非常直接：如果规律还没明显断掉，继续堆规模就可能继续换来收益。

二、Kaplan 的贡献：第一次把“大”写成了规律

2020 年 OpenAI 的 Kaplan scaling laws 工作，是这条线真正出圈的起点。

2.1 它回答的不是“某个模型多强”，而是“规模变化会怎样”

Kaplan 等人做了大量不同参数量、不同数据量、不同计算预算的语言模型实验，观察 cross-entropy loss 如何变化。最重要的结论不是某个单点指标，而是：

loss 随模型参数增加按近似幂律下降；
loss 随数据量增加也按近似幂律下降；
在固定计算预算下，存在一条“更优的模型大小—训练步数配比”。

换句话说，模型变强不是玄学，而是有形状可循。

2.2 这让“继续做更大模型”第一次变得有理论支撑

在 Kaplan 之前，做更大模型当然也有人尝试，但更像“拍脑袋试试”。Scaling laws 之后，行业获得了一种新的信心：

如果我们还处在幂律区间里，继续放大模型和数据，大概率还能稳定获益。

这其实为 GPT-3、PaLM、LLaMA 之后整轮规模竞赛提供了非常强的心理和资源正当性。

2.3 但 Kaplan 时代的 compute-optimal 结论后来被修正了

这里要小心。Kaplan 的结论里一个很有影响力的暗含建议是：在固定算力下，似乎值得优先把模型做大，即便训练 token 数相对没那么多。

后来的 Chinchilla 工作证明，这个方向在很多现实区间里其实过度偏向“大模型、少训练”。这就引出了下一阶段的修正。

三、Chinchilla 的核心：很多模型其实“训不够”

Hoffmann 等人 2022 年的 Chinchilla 工作，几乎是 scaling laws 历史上的第二次地震。

3.1 关键问题变了：固定计算预算下，参数和数据怎么配

Chinchilla 没有否定“更大模型更强”，它修正的是另一件事：

在固定训练 FLOPs 下，最优策略不一定是把参数尽量做大，而是让参数量和训练 token 数保持更合理比例。

3.2 最出圈的经验法则：大约 20 tokens / parameter

这条经验法则后来传播得非常广：一个 compute-optimal 的语言模型，训练 token 数应该和参数量大致同量级，常见口径是每个参数大约看到 20 个 token 左右。

这意味着：

如果你有 70B 参数，但只喂了几百亿 token，模型大概率没训透；
与其盲目把参数继续做大，不如让当前模型多看数据；
过去很多“大模型”的问题不是太小，而是训练 token 明显不足。

3.3 为什么这会改变行业判断

因为它直接改写了“模型做多大”的投资逻辑。

在 Chinchilla 之后，训练一个强模型不再只是拼参数量，还要问：

数据够不够；
token 数是不是严重偏少；
当前预算下，更好的策略是再加参数，还是继续训练。

这让“数据工程”和“训练预算分配”突然从配角变成了主角。

四、compute-optimal 到底在优化什么

“compute-optimal” 这词很容易被误读成“绝对最强”。其实它更准确的意思是：

在固定总训练计算预算下，怎样分配模型大小和训练数据，能把最终 loss 压到最低。

4.1 不是参数越多越 compute-optimal

参数更多当然可能上限更高，但前提是你还要有足够计算把它训够。如果预算固定，过大的模型会出现一种常见情况：

参数很多；
每个参数更新次数不够；
数据没看够；
最终 loss 反而不如一个稍小但训得更充分的模型。

这就是“undertrained large model”的典型形态。

4.2 也不是数据越多越一定更好

反过来，如果模型太小，数据再多也可能吃不下。模型容量不够时，继续堆 token 的收益会下降。compute-optimal 的本质，就是找这两个边际收益的平衡点。

4.3 所以 scaling laws 不是“大力出奇迹”，而是预算分配学

真正成熟的理解应该是：

参数量决定容量上限；
数据量决定是否把容量喂饱；
计算预算决定你两边能走多远。

这三者必须一起看。

五、为什么 scaling laws 会改变模型研发流程

它的影响不只是论文层面的解释，而是工程流程本身。

5.1 先做小实验，再外推

有了 scaling laws 思维后，团队不会一上来就拍脑袋训最大模型，而会先做一系列小规模 sweep：

不同参数量；
不同 token 数；
不同学习率和 batch 规模；
看 loss 曲线在 log-log 坐标下的形状。

然后再推测更大规模点值大概会落在哪里。

5.2 训练决策更像资本配置

训练预算有限时，你其实在做一个配置问题：

是训一个更大的模型但少看点数据；
还是训一个略小模型但多看几轮；
是先追加数据清洗，还是先扩训练步数。

scaling laws 给这个问题提供了量化框架。

5.3 评估也不再只看 benchmark 单点

团队会越来越关心：

loss 曲线还在不在幂律区间；
validation loss 是否提前平台化；
token / parameter 比例是否失衡；
当前模型是数据瓶颈还是容量瓶颈。

这是一套比“榜单涨没涨”更深的研发视角。

六、为什么 Chinchilla 之后“数据”突然变得更贵了

如果每个参数都需要足够多的 token 才能训透，那高质量数据就不再只是“有更好，没有也行”的加分项，而是硬约束。

6.1 你不能只靠重复低质量数据喂饱模型

Chinchilla 讲的是 token 数量，但现实里 token 质量同样重要。重复、污染、模板化、低信息密度的数据，名义上增加了 token，实际上不一定等于有效训练信号。

6.2 数据工程因此从幕后走到前台

这也是为什么近几年越来越多团队把精力花在：

去重；
过滤低质量网页；
混合代码、书籍、论文、对话数据；
追踪 benchmark contamination。

因为 scaling laws 告诉你：如果数据真的成了瓶颈，模型再大也吃不满。

这件事会在下一篇展开。

七、scaling laws 的边界和误用

这套规律很强，但也不能当成万能预测器。

7.1 它描述的是区间规律，不是永恒定律

幂律关系通常只在一定规模区间内拟合得好。超出分布、换目标、换数据质量、换架构后，斜率和常数项都可能变。

7.2 loss 下降不自动等于所有能力都线性提升

很多能力——推理、工具使用、长上下文、代码执行——和纯语言建模 loss 的关系并不总是平滑线性。有时会出现阶段性涌现、接口瓶颈或评测失真。

7.3 它不能替代具体实验

scaling laws 给你的是趋势判断，不是免实验通行证。一个团队如果拿着别人论文里的比例，完全不做自己数据和架构上的 sweep，照样可能训偏。

八、几个常见误解

8.1 “scaling laws 的结论就是模型越大越好”

太粗了。更准确的说法是：在很多区间里，增大模型、数据、计算都会继续带来收益，但必须考虑三者配比。

8.2 “Chinchilla 否定了大模型路线”

没有。它否定的是“只顾放大参数、却不给足训练 token”的做法，不是否定大模型本身。

8.3 “20 tokens / parameter 是铁律”

不是。它是某一类语言模型和训练设置下非常有用的经验法则，不是放之四海而皆准的宇宙常数。

8.4 “只要 token 数够多，模型一定最优”

也不对。数据质量、训练稳定性、优化器设置、架构细节都会影响最终结果。

8.5 “loss 降得更低，就等于用户体验一定更好”

不总是。loss 是非常重要的基础指标，但对齐性、工具使用、长上下文、输出风格等问题还需要别的训练阶段和评估维度。

九、结语

Scaling laws 真正把“大模型时代”从热情变成方法论的地方，在于它让我们第一次能系统地讨论：参数、数据、算力到底该怎么配。Kaplan 让行业相信继续做大还有稳健收益；Chinchilla 则进一步提醒大家，很多模型不是不够大，而是明显训不够。这个修正非常重要，因为它把“继续放大参数”的单轴竞赛，变成了“容量、数据和计算三者协同”的多轴优化问题。

理解了这一点，下一篇谈数据工程时你就会更容易明白：为什么数据不再只是燃料，而是直接决定 scaling 能不能兑现的那一半。

十、参考文献

Hestness, J. et al. “Deep Learning Scaling is Predictable, Empirically.” arXiv:1712.00409, 2017. 早期 scaling 经验规律工作。
Kaplan, J. et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361, 2020. 语言模型 scaling laws 的标志性论文。
Hoffmann, J. et al. “Training Compute-Optimal Large Language Models.” arXiv:2203.15556, 2022. Chinchilla 法则的原始论文。
Besiroglu, T. et al. “The Chinchilla Scaling Laws and Beyond.” Epoch AI report, 2024. 对后续 scaling 讨论的整理性材料。

← 上一篇：33｜RLHF　|　下一篇：35｜数据工程 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】58｜后 Transformer 时代：架构会消失还是会进化

后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer，更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线，解释为什么 Transformer 很难突然消失，也为什么它不可能原样解决所有问题。

2026-06-09 · transformer

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字，这不是随机 bug，而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发，解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染，并给出从架构到运行时的多层防线。

2026-04-15 · transformer

【Transformer 与注意力机制】系列总览

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

2026-04-15 · transformer

【Transformer 与注意力机制】01｜为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇，承担两件事：一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚；二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径，让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。

Transformer系列导航

文章导航

目录

一、什么叫 scaling law

1.1 这和“饱和点”思维完全不同

二、Kaplan 的贡献：第一次把“大”写成了规律

2.1 它回答的不是“某个模型多强”，而是“规模变化会怎样”

2.2 这让“继续做更大模型”第一次变得有理论支撑

2.3 但 Kaplan 时代的 compute-optimal 结论后来被修正了

三、Chinchilla 的核心：很多模型其实“训不够”

3.1 关键问题变了：固定计算预算下，参数和数据怎么配

3.2 最出圈的经验法则：大约 20 tokens / parameter

3.3 为什么这会改变行业判断

四、compute-optimal 到底在优化什么

4.1 不是参数越多越 compute-optimal

4.2 也不是数据越多越一定更好

4.3 所以 scaling laws 不是“大力出奇迹”，而是预算分配学

五、为什么 scaling laws 会改变模型研发流程

5.1 先做小实验，再外推

5.2 训练决策更像资本配置

5.3 评估也不再只看 benchmark 单点

六、为什么 Chinchilla 之后“数据”突然变得更贵了

6.1 你不能只靠重复低质量数据喂饱模型

6.2 数据工程因此从幕后走到前台

七、scaling laws 的边界和误用

7.1 它描述的是区间规律，不是永恒定律

7.2 loss 下降不自动等于所有能力都线性提升

7.3 它不能替代具体实验

八、几个常见误解

8.1 “scaling laws 的结论就是模型越大越好”

8.2 “Chinchilla 否定了大模型路线”

8.3 “20 tokens / parameter 是铁律”

8.4 “只要 token 数够多，模型一定最优”

8.5 “loss 降得更低，就等于用户体验一定更好”

九、结语

十、参考文献

同主题继续阅读

【Transformer 与注意力机制】58｜后 Transformer 时代：架构会消失还是会进化

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

【Transformer 与注意力机制】系列总览

【Transformer 与注意力机制】01｜为什么要从这里开始