“大模型为什么更强”这个问题,最糟糕的回答就是一句空话:因为参数更多。这个回答在表面上没错,但几乎没有解释力。真正重要的问题是:
- 性能随参数增长,究竟按什么规律变好?
- 只有加参数才有用,还是数据和算力也同样关键?
- 在固定算力预算下,应该训更大的模型,还是让稍小模型多看数据?
Scaling Laws 研究真正回答的,就是这三件事。它把“越大越强”从一句模糊经验,变成了可以讨论 trade-off 的工程规律。
如果只记一句最有价值的结论,那就是:很多大模型不是“不够大”,而是“每个参数看过的 token 不够多”。 这就是后来 Chinchilla 法则带来的震动。
一、什么叫 scaling law
在深度学习语境里,scaling law 指的是:当模型规模、数据规模、训练计算量持续增大时,损失或性能指标常常会按近似幂律(power law)规律改善。
直觉上可以写成类似:
\[ L(N, D, C) \approx A N^{-\alpha} + B D^{-\beta} + E \]
这里:
- \(N\) 表示参数量;
- \(D\) 表示训练数据量(常用 token 数衡量);
- \(C\) 表示训练计算量;
- \(L\) 是损失或误差。
这条式子不要当成放之四海而皆准的精确定理,但它抓住了一个很稳定的经验事实:在相当宽的范围内,继续加模型、加数据、加计算,收益不是突然中断的,而是平滑递减。
1.1 这和“饱和点”思维完全不同
很多早期机器学习直觉是:模型大到一定程度就会饱和,再往上加没意义。Scaling laws 研究告诉我们,至少在很长一段区间里,事情并不是这样。收益会递减,但不会很快归零。
这对工业界的含义非常直接:如果规律还没明显断掉,继续堆规模就可能继续换来收益。
二、Kaplan 的贡献:第一次把“大”写成了规律
2020 年 OpenAI 的 Kaplan scaling laws 工作,是这条线真正出圈的起点。
2.1 它回答的不是“某个模型多强”,而是“规模变化会怎样”
Kaplan 等人做了大量不同参数量、不同数据量、不同计算预算的语言模型实验,观察 cross-entropy loss 如何变化。最重要的结论不是某个单点指标,而是:
- loss 随模型参数增加按近似幂律下降;
- loss 随数据量增加也按近似幂律下降;
- 在固定计算预算下,存在一条“更优的模型大小—训练步数配比”。
换句话说,模型变强不是玄学,而是有形状可循。
2.2 这让“继续做更大模型”第一次变得有理论支撑
在 Kaplan 之前,做更大模型当然也有人尝试,但更像“拍脑袋试试”。Scaling laws 之后,行业获得了一种新的信心:
如果我们还处在幂律区间里,继续放大模型和数据,大概率还能稳定获益。
这其实为 GPT-3、PaLM、LLaMA 之后整轮规模竞赛提供了非常强的心理和资源正当性。
2.3 但 Kaplan 时代的 compute-optimal 结论后来被修正了
这里要小心。Kaplan 的结论里一个很有影响力的暗含建议是:在固定算力下,似乎值得优先把模型做大,即便训练 token 数相对没那么多。
后来的 Chinchilla 工作证明,这个方向在很多现实区间里其实过度偏向“大模型、少训练”。这就引出了下一阶段的修正。
三、Chinchilla 的核心:很多模型其实“训不够”
Hoffmann 等人 2022 年的 Chinchilla 工作,几乎是 scaling laws 历史上的第二次地震。
3.1 关键问题变了:固定计算预算下,参数和数据怎么配
Chinchilla 没有否定“更大模型更强”,它修正的是另一件事:
在固定训练 FLOPs 下,最优策略不一定是把参数尽量做大,而是让参数量和训练 token 数保持更合理比例。
3.2 最出圈的经验法则:大约 20 tokens / parameter
这条经验法则后来传播得非常广:一个 compute-optimal 的语言模型,训练 token 数应该和参数量大致同量级,常见口径是每个参数大约看到 20 个 token 左右。
这意味着:
- 如果你有 70B 参数,但只喂了几百亿 token,模型大概率没训透;
- 与其盲目把参数继续做大,不如让当前模型多看数据;
- 过去很多“大模型”的问题不是太小,而是训练 token 明显不足。
3.3 为什么这会改变行业判断
因为它直接改写了“模型做多大”的投资逻辑。
在 Chinchilla 之后,训练一个强模型不再只是拼参数量,还要问:
- 数据够不够;
- token 数是不是严重偏少;
- 当前预算下,更好的策略是再加参数,还是继续训练。
这让“数据工程”和“训练预算分配”突然从配角变成了主角。
四、compute-optimal 到底在优化什么
“compute-optimal” 这词很容易被误读成“绝对最强”。其实它更准确的意思是:
在固定总训练计算预算下,怎样分配模型大小和训练数据,能把最终 loss 压到最低。
4.1 不是参数越多越 compute-optimal
参数更多当然可能上限更高,但前提是你还要有足够计算把它训够。如果预算固定,过大的模型会出现一种常见情况:
- 参数很多;
- 每个参数更新次数不够;
- 数据没看够;
- 最终 loss 反而不如一个稍小但训得更充分的模型。
这就是“undertrained large model”的典型形态。
4.2 也不是数据越多越一定更好
反过来,如果模型太小,数据再多也可能吃不下。模型容量不够时,继续堆 token 的收益会下降。compute-optimal 的本质,就是找这两个边际收益的平衡点。
4.3 所以 scaling laws 不是“大力出奇迹”,而是预算分配学
真正成熟的理解应该是:
- 参数量决定容量上限;
- 数据量决定是否把容量喂饱;
- 计算预算决定你两边能走多远。
这三者必须一起看。
五、为什么 scaling laws 会改变模型研发流程
它的影响不只是论文层面的解释,而是工程流程本身。
5.1 先做小实验,再外推
有了 scaling laws 思维后,团队不会一上来就拍脑袋训最大模型,而会先做一系列小规模 sweep:
- 不同参数量;
- 不同 token 数;
- 不同学习率和 batch 规模;
- 看 loss 曲线在 log-log 坐标下的形状。
然后再推测更大规模点值大概会落在哪里。
5.2 训练决策更像资本配置
训练预算有限时,你其实在做一个配置问题:
- 是训一个更大的模型但少看点数据;
- 还是训一个略小模型但多看几轮;
- 是先追加数据清洗,还是先扩训练步数。
scaling laws 给这个问题提供了量化框架。
5.3 评估也不再只看 benchmark 单点
团队会越来越关心:
- loss 曲线还在不在幂律区间;
- validation loss 是否提前平台化;
- token / parameter 比例是否失衡;
- 当前模型是数据瓶颈还是容量瓶颈。
这是一套比“榜单涨没涨”更深的研发视角。
六、为什么 Chinchilla 之后“数据”突然变得更贵了
如果每个参数都需要足够多的 token 才能训透,那高质量数据就不再只是“有更好,没有也行”的加分项,而是硬约束。
6.1 你不能只靠重复低质量数据喂饱模型
Chinchilla 讲的是 token 数量,但现实里 token 质量同样重要。重复、污染、模板化、低信息密度的数据,名义上增加了 token,实际上不一定等于有效训练信号。
6.2 数据工程因此从幕后走到前台
这也是为什么近几年越来越多团队把精力花在:
- 去重;
- 过滤低质量网页;
- 混合代码、书籍、论文、对话数据;
- 追踪 benchmark contamination。
因为 scaling laws 告诉你:如果数据真的成了瓶颈,模型再大也吃不满。
这件事会在下一篇展开。
七、scaling laws 的边界和误用
这套规律很强,但也不能当成万能预测器。
7.1 它描述的是区间规律,不是永恒定律
幂律关系通常只在一定规模区间内拟合得好。超出分布、换目标、换数据质量、换架构后,斜率和常数项都可能变。
7.2 loss 下降不自动等于所有能力都线性提升
很多能力——推理、工具使用、长上下文、代码执行——和纯语言建模 loss 的关系并不总是平滑线性。有时会出现阶段性涌现、接口瓶颈或评测失真。
7.3 它不能替代具体实验
scaling laws 给你的是趋势判断,不是免实验通行证。一个团队如果拿着别人论文里的比例,完全不做自己数据和架构上的 sweep,照样可能训偏。
八、几个常见误解
8.1 “scaling laws 的结论就是模型越大越好”
太粗了。更准确的说法是:在很多区间里,增大模型、数据、计算都会继续带来收益,但必须考虑三者配比。
8.2 “Chinchilla 否定了大模型路线”
没有。它否定的是“只顾放大参数、却不给足训练 token”的做法,不是否定大模型本身。
8.3 “20 tokens / parameter 是铁律”
不是。它是某一类语言模型和训练设置下非常有用的经验法则,不是放之四海而皆准的宇宙常数。
8.4 “只要 token 数够多,模型一定最优”
也不对。数据质量、训练稳定性、优化器设置、架构细节都会影响最终结果。
8.5 “loss 降得更低,就等于用户体验一定更好”
不总是。loss 是非常重要的基础指标,但对齐性、工具使用、长上下文、输出风格等问题还需要别的训练阶段和评估维度。
九、结语
Scaling laws 真正把“大模型时代”从热情变成方法论的地方,在于它让我们第一次能系统地讨论:参数、数据、算力到底该怎么配。Kaplan 让行业相信继续做大还有稳健收益;Chinchilla 则进一步提醒大家,很多模型不是不够大,而是明显训不够。这个修正非常重要,因为它把“继续放大参数”的单轴竞赛,变成了“容量、数据和计算三者协同”的多轴优化问题。
理解了这一点,下一篇谈数据工程时你就会更容易明白:为什么数据不再只是燃料,而是直接决定 scaling 能不能兑现的那一半。
十、参考文献
- Hestness, J. et al. “Deep Learning Scaling is Predictable, Empirically.” arXiv:1712.00409, 2017. 早期 scaling 经验规律工作。
- Kaplan, J. et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361, 2020. 语言模型 scaling laws 的标志性论文。
- Hoffmann, J. et al. “Training Compute-Optimal Large Language Models.” arXiv:2203.15556, 2022. Chinchilla 法则的原始论文。
- Besiroglu, T. et al. “The Chinchilla Scaling Laws and Beyond.” Epoch AI report, 2024. 对后续 scaling 讨论的整理性材料。
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。
【Transformer 与注意力机制】41|位置编码演进:Sinusoidal → Learned → RoPE → ALiBi
Transformer 本身没有递归和卷积,如果不注入位置信息,它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi,解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”,以及长上下文为什么让位置外推变成核心问题。