大模型最迷人的现象之一,是它有时看起来“突然会了”。模型小的时候做不出某个任务,规模扩大到某个点后,分数突然上升。这个现象常被称为涌现能力(emergent abilities)。
但涌现很容易被神秘化。能力真的可能随规模产生非线性变化;同时,指标阈值、评分方式、prompt 格式也可能把平滑变化画成突然跳跃。严肃讨论涌现,必须同时承认两点:规模效应真实存在,评测表象也可能误导。
本篇能让你学会三件事:
- emergent abilities 为什么有争议;
- in-context learning 和 Chain-of-Thought 分别说明什么;
- 为什么涌现不是魔法,也不是完全不存在。
一、什么叫涌现能力
涌现能力通常指:某种能力在小模型上接近随机或不可见,到足够大规模后才明显出现。早期讨论中,许多 BIG-Bench 任务被用来展示这种现象。
问题在于,任务分数不一定线性反映模型能力。比如 exact match 指标只看答案完全正确,模型从“差一点”到“完全正确”可能表现为突然跳跃。换一种连续评分方式,曲线可能更平滑。
所以涌现既是模型现象,也是评测现象。不能只看一张曲线就断言内部机制发生了相变。
二、指标阈值如何制造跳跃
假设模型数学能力逐步提升,但评测只给 0 或 1。模型从经常算错最后一步,到经常算对完整答案,中间可能出现分数突然上升。实际能力是连续改善,指标却呈现离散跳跃。
这不意味着涌现全是幻觉。规模扩大确实可能让模型组合已有技能,跨过任务所需门槛。只是“曲线突然上升”本身不足以证明机制突然改变。
理解这一点可以避免两个极端:一种把涌现当神秘智能觉醒;另一种把所有涌现都说成评测假象。更合理的态度是逐个任务分析。
三、In-context learning
In-context learning 指模型参数不变,只通过上下文中的示例适应任务。用户给几个输入输出样例,模型继续完成同样格式。
这看起来像学习,但没有梯度更新。模型在预训练中见过大量任务模式、文本格式和类比结构,因此能够在上下文里推断当前任务。
GPT-3 让 in-context learning 成为中心现象。它改变了使用模型的方式:任务不一定要 fine-tune,可以写进 prompt。后来的指令微调和工具调用都建立在这个接口变化之上。
四、Chain-of-Thought
Chain-of-Thought(CoT)让模型在回答前生成中间推理步骤。对数学、逻辑、多步问答等任务,这常常显著提升结果。
一种直觉是,CoT 给模型更多 token 来分解问题,把复杂映射拆成一串较简单的局部生成。它也让模型的中间状态显式化,便于后续 token 依赖前面的推理文本。
但 CoT 不是可靠证明。模型生成的推理过程可能有错,也可能事后合理化。它提升性能,不等于每一步都是真实内部原因。
五、规模、数据和任务格式
涌现能力不是只由参数量决定。训练数据里是否包含相关格式,token 数是否足够,模型是否经过指令微调,prompt 是否清楚,解码策略是否稳定,都会影响结果。
比如 CoT 的效果依赖模型见过足够多解释型文本,也依赖 prompt 是否诱导中间步骤。in-context learning 依赖上下文长度、示例质量和模型对格式的敏感性。
所以讨论“模型到多大才涌现”时,必须同时问:用什么数据训练?用什么任务评估?用什么 prompt?用什么指标?
六、涌现与幻觉、对齐、工具使用
能力涌现不只带来好处。模型更会推理,也可能更会编造看似合理的解释;更会遵循格式,也可能更会绕过浅层安全规则;更会使用工具,也可能更会在工具结果和语言先验冲突时犯错。
对齐训练试图把能力引导到有用、诚实、安全的行为上。工具使用则把部分能力外包给外部系统。涌现能力越强,系统设计越重要。
这也是为什么大模型评估不能只看 benchmark 分数。交互稳定性、拒答边界、引用可靠性和工具调用正确性同样关键。
七、关键概念回顾
- 涌现能力:在较大规模才明显出现的任务表现。
- 阈值效应:指标或任务门槛让平滑能力变化表现为跳跃。
- in-context learning:参数不更新,通过上下文示例适应任务。
- Chain-of-Thought:生成中间推理步骤以改善多步任务。
- BIG-Bench:研究大模型能力的重要基准集合之一。
八、常见误解
8.1 “涌现就是模型觉醒”
不是。它是规模、数据、训练目标和评测共同作用下的能力表现。
8.2 “涌现完全不存在”
也不准确。某些能力确实在规模扩大后变得可用,只是曲线形状需要谨慎解释。
8.3 “CoT 展示了模型真实思维”
CoT 是有用的生成策略,不保证每一步都是内部真实因果过程。
九、下一步
现代 Transformer 的能力已经很强,但它的结构性限制也越来越清楚。下一篇进入架构反思:为什么 O(n²)、KV Cache、自回归串行性和长期记忆问题会成为 Transformer 的根本瓶颈。
十、参考文献
- Wei, J. et al. “Emergent Abilities of Large Language Models.” TMLR 2022.
- Schaeffer, R. et al. “Are Emergent Abilities of Large Language Models a Mirage?” NeurIPS 2023.
- Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020.
- Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” NeurIPS 2022.
- Srivastava, A. et al. “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models.” TMLR 2023.
← 上一篇:53|机制可解释性 | 下一篇:55|Transformer 的根本局限 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
15|Scaled Dot-Product:那个根号 d_k 是怎么来的
> 本文从零推导注意力机制点积方差的来源,解释缩放因子如何防范梯度弥散,并作为大模型 Scaling Laws 数值稳定的基石。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。