土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】54|涌现能力:上下文学习与思维链为什么会出现

文章导航

分类入口
transformer
标签入口
#transformer#emergence#in-context-learning#chain-of-thought#scaling

目录

大模型最迷人的现象之一,是它有时看起来“突然会了”。模型小的时候做不出某个任务,规模扩大到某个点后,分数突然上升。这个现象常被称为涌现能力(emergent abilities)。

但涌现很容易被神秘化。能力真的可能随规模产生非线性变化;同时,指标阈值、评分方式、prompt 格式也可能把平滑变化画成突然跳跃。严肃讨论涌现,必须同时承认两点:规模效应真实存在,评测表象也可能误导。

本篇能让你学会三件事:

  1. emergent abilities 为什么有争议;
  2. in-context learning 和 Chain-of-Thought 分别说明什么;
  3. 为什么涌现不是魔法,也不是完全不存在。

一、什么叫涌现能力

涌现能力通常指:某种能力在小模型上接近随机或不可见,到足够大规模后才明显出现。早期讨论中,许多 BIG-Bench 任务被用来展示这种现象。

问题在于,任务分数不一定线性反映模型能力。比如 exact match 指标只看答案完全正确,模型从“差一点”到“完全正确”可能表现为突然跳跃。换一种连续评分方式,曲线可能更平滑。

所以涌现既是模型现象,也是评测现象。不能只看一张曲线就断言内部机制发生了相变。


二、指标阈值如何制造跳跃

假设模型数学能力逐步提升,但评测只给 0 或 1。模型从经常算错最后一步,到经常算对完整答案,中间可能出现分数突然上升。实际能力是连续改善,指标却呈现离散跳跃。

这不意味着涌现全是幻觉。规模扩大确实可能让模型组合已有技能,跨过任务所需门槛。只是“曲线突然上升”本身不足以证明机制突然改变。

理解这一点可以避免两个极端:一种把涌现当神秘智能觉醒;另一种把所有涌现都说成评测假象。更合理的态度是逐个任务分析。


三、In-context learning

In-context learning 指模型参数不变,只通过上下文中的示例适应任务。用户给几个输入输出样例,模型继续完成同样格式。

这看起来像学习,但没有梯度更新。模型在预训练中见过大量任务模式、文本格式和类比结构,因此能够在上下文里推断当前任务。

GPT-3 让 in-context learning 成为中心现象。它改变了使用模型的方式:任务不一定要 fine-tune,可以写进 prompt。后来的指令微调和工具调用都建立在这个接口变化之上。


四、Chain-of-Thought

Chain-of-Thought(CoT)让模型在回答前生成中间推理步骤。对数学、逻辑、多步问答等任务,这常常显著提升结果。

一种直觉是,CoT 给模型更多 token 来分解问题,把复杂映射拆成一串较简单的局部生成。它也让模型的中间状态显式化,便于后续 token 依赖前面的推理文本。

但 CoT 不是可靠证明。模型生成的推理过程可能有错,也可能事后合理化。它提升性能,不等于每一步都是真实内部原因。


五、规模、数据和任务格式

涌现能力不是只由参数量决定。训练数据里是否包含相关格式,token 数是否足够,模型是否经过指令微调,prompt 是否清楚,解码策略是否稳定,都会影响结果。

比如 CoT 的效果依赖模型见过足够多解释型文本,也依赖 prompt 是否诱导中间步骤。in-context learning 依赖上下文长度、示例质量和模型对格式的敏感性。

所以讨论“模型到多大才涌现”时,必须同时问:用什么数据训练?用什么任务评估?用什么 prompt?用什么指标?


六、涌现与幻觉、对齐、工具使用

能力涌现不只带来好处。模型更会推理,也可能更会编造看似合理的解释;更会遵循格式,也可能更会绕过浅层安全规则;更会使用工具,也可能更会在工具结果和语言先验冲突时犯错。

对齐训练试图把能力引导到有用、诚实、安全的行为上。工具使用则把部分能力外包给外部系统。涌现能力越强,系统设计越重要。

这也是为什么大模型评估不能只看 benchmark 分数。交互稳定性、拒答边界、引用可靠性和工具调用正确性同样关键。


七、关键概念回顾


八、常见误解

8.1 “涌现就是模型觉醒”

不是。它是规模、数据、训练目标和评测共同作用下的能力表现。

8.2 “涌现完全不存在”

也不准确。某些能力确实在规模扩大后变得可用,只是曲线形状需要谨慎解释。

8.3 “CoT 展示了模型真实思维”

CoT 是有用的生成策略,不保证每一步都是内部真实因果过程。


九、下一步

现代 Transformer 的能力已经很强,但它的结构性限制也越来越清楚。下一篇进入架构反思:为什么 O(n²)、KV Cache、自回归串行性和长期记忆问题会成为 Transformer 的根本瓶颈。


十、参考文献

  1. Wei, J. et al. “Emergent Abilities of Large Language Models.” TMLR 2022.
  2. Schaeffer, R. et al. “Are Emergent Abilities of Large Language Models a Mirage?” NeurIPS 2023.
  3. Brown, T. et al. “Language Models are Few-Shot Learners.” NeurIPS 2020.
  4. Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” NeurIPS 2022.
  5. Srivastava, A. et al. “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models.” TMLR 2023.

← 上一篇:53|机制可解释性 | 下一篇:55|Transformer 的根本局限

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .