【Transformer 与注意力机制】54｜涌现能力：上下文学习与思维链为什么会出现

大模型最迷人的现象之一，是它有时看起来“突然会了”。模型小的时候做不出某个任务，规模扩大到某个点后，分数突然上升。这个现象常被称为涌现能力（emergent abilities）。

但涌现很容易被神秘化。能力真的可能随规模产生非线性变化；同时，指标阈值、评分方式、prompt 格式也可能把平滑变化画成突然跳跃。严肃讨论涌现，必须同时承认两点：规模效应真实存在，评测表象也可能误导。

本篇能让你学会三件事：

emergent abilities 为什么有争议；
in-context learning 和 Chain-of-Thought 分别说明什么；
为什么涌现不是魔法，也不是完全不存在。

一、什么叫涌现能力

涌现能力通常指：某种能力在小模型上接近随机或不可见，到足够大规模后才明显出现。早期讨论中，许多 BIG-Bench 任务被用来展示这种现象。

问题在于，任务分数不一定线性反映模型能力。比如 exact match 指标只看答案完全正确，模型从“差一点”到“完全正确”可能表现为突然跳跃。换一种连续评分方式，曲线可能更平滑。

所以涌现既是模型现象，也是评测现象。不能只看一张曲线就断言内部机制发生了相变。

二、指标阈值如何制造跳跃

假设模型数学能力逐步提升，但评测只给 0 或 1。模型从经常算错最后一步，到经常算对完整答案，中间可能出现分数突然上升。实际能力是连续改善，指标却呈现离散跳跃。

这不意味着涌现全是幻觉。规模扩大确实可能让模型组合已有技能，跨过任务所需门槛。只是“曲线突然上升”本身不足以证明机制突然改变。

理解这一点可以避免两个极端：一种把涌现当神秘智能觉醒；另一种把所有涌现都说成评测假象。更合理的态度是逐个任务分析。

三、In-context learning

In-context learning 指模型参数不变，只通过上下文中的示例适应任务。用户给几个输入输出样例，模型继续完成同样格式。

这看起来像学习，但没有梯度更新。模型在预训练中见过大量任务模式、文本格式和类比结构，因此能够在上下文里推断当前任务。

GPT-3 让 in-context learning 成为中心现象。它改变了使用模型的方式：任务不一定要 fine-tune，可以写进 prompt。后来的指令微调和工具调用都建立在这个接口变化之上。

四、Chain-of-Thought

Chain-of-Thought（CoT）让模型在回答前生成中间推理步骤。对数学、逻辑、多步问答等任务，这常常显著提升结果。

一种直觉是，CoT 给模型更多 token 来分解问题，把复杂映射拆成一串较简单的局部生成。它也让模型的中间状态显式化，便于后续 token 依赖前面的推理文本。

但 CoT 不是可靠证明。模型生成的推理过程可能有错，也可能事后合理化。它提升性能，不等于每一步都是真实内部原因。

五、规模、数据和任务格式

涌现能力不是只由参数量决定。训练数据里是否包含相关格式，token 数是否足够，模型是否经过指令微调，prompt 是否清楚，解码策略是否稳定，都会影响结果。

比如 CoT 的效果依赖模型见过足够多解释型文本，也依赖 prompt 是否诱导中间步骤。in-context learning 依赖上下文长度、示例质量和模型对格式的敏感性。

所以讨论“模型到多大才涌现”时，必须同时问：用什么数据训练？用什么任务评估？用什么 prompt？用什么指标？

六、涌现与幻觉、对齐、工具使用

能力涌现不只带来好处。模型更会推理，也可能更会编造看似合理的解释；更会遵循格式，也可能更会绕过浅层安全规则；更会使用工具，也可能更会在工具结果和语言先验冲突时犯错。

对齐训练试图把能力引导到有用、诚实、安全的行为上。工具使用则把部分能力外包给外部系统。涌现能力越强，系统设计越重要。

这也是为什么大模型评估不能只看 benchmark 分数。交互稳定性、拒答边界、引用可靠性和工具调用正确性同样关键。

七、关键概念回顾

涌现能力：在较大规模才明显出现的任务表现。
阈值效应：指标或任务门槛让平滑能力变化表现为跳跃。
in-context learning：参数不更新，通过上下文示例适应任务。
Chain-of-Thought：生成中间推理步骤以改善多步任务。
BIG-Bench：研究大模型能力的重要基准集合之一。

八、常见误解

8.1 “涌现就是模型觉醒”

不是。它是规模、数据、训练目标和评测共同作用下的能力表现。

8.2 “涌现完全不存在”

也不准确。某些能力确实在规模扩大后变得可用，只是曲线形状需要谨慎解释。

8.3 “CoT 展示了模型真实思维”

CoT 是有用的生成策略，不保证每一步都是内部真实因果过程。

九、下一步

现代 Transformer 的能力已经很强，但它的结构性限制也越来越清楚。下一篇进入架构反思：为什么 O(n²)、KV Cache、自回归串行性和长期记忆问题会成为 Transformer 的根本瓶颈。

十、参考文献

Wei, J. et al. “Emergent Abilities of Large Language Models.” TMLR 2022.
Schaeffer, R. et al. “Are Emergent Abilities of Large Language Models a Mirage?” NeurIPS 2023.
Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020.
Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” NeurIPS 2022.
Srivastava, A. et al. “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models.” TMLR 2023.

← 上一篇：53｜机制可解释性　|　下一篇：55｜Transformer 的根本局限 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer