52|可解释性入门 讲过,attention weight 不是完整解释。机制可解释性更进一步:它不满足于画热力图,而是试图找出模型内部真实参与计算的组件和路径。
这条路线把 Transformer 当成可研究的计算系统。某些 head 可能负责复制模式,某些 MLP feature 可能表示概念,残差流可能在层与层之间搬运信息。问题是:能不能把这些组件组织成“电路”,解释某个具体行为?
本篇能让你学会三件事:
- 什么是 circuit,为什么 induction head 是经典案例;
- activation patching 如何提供因果证据;
- superposition 和 Sparse Autoencoder 为什么成为近年热点。
一、什么是 circuit
在机制可解释性里,circuit 指一组内部组件及其连接,共同实现某种行为。它可能包括 attention head、MLP neuron、残差流方向和层间路径。
比如模型在看到 “A B … A” 后预测 “B”,可能依赖某些 head 复制前文模式。这个行为不是单个神经元完成,而是一组模块协作完成。
找 circuit 的目标不是给模型贴标签,而是建立因果模型:如果关掉这些组件,行为是否消失?如果把它们从干净样本 patch 到损坏样本,行为是否恢复?
二、Induction heads
Induction head 是 Transformer 机制可解释性中最有名的例子之一。它大致实现一种模式:当前上下文出现过某个 token 序列时,模型可以根据前一次出现后的 token 来预测当前后续。
这类似简单的上下文复制能力,也是 in-context learning 的基础现象之一。研究者在小 Transformer 中观察到某些 attention head 专门形成这种“查找前一次出现位置并复制后继”的行为。
Induction head 的价值不在于解释所有能力,而在于证明某些可解释电路确实存在,并且可以通过训练过程、激活和干预来研究。
三、Activation patching
Activation patching 是一种因果干预方法。准备一个 clean prompt 和一个 corrupted prompt,clean 能让模型输出正确答案,corrupted 会让模型失败。然后把 clean 运行中的某个内部激活替换到 corrupted 运行中,看输出是否恢复。
如果替换某层某位置的激活能恢复答案,说明那里携带了关键因果信息。进一步细分到 head、MLP、残差流方向,就可以定位更具体的机制。
这比只看相关性更强。它直接问:改变这里,结果会不会变?当然,patching 也有边界。激活替换可能制造不自然状态,结论需要结合多种实验。
四、Superposition:一个神经元不等于一个概念
早期解释神经网络时,人们常想找“某个神经元表示某个概念”。但大模型内部常有 superposition:有限维度中叠加表示大量特征。一个神经元可能参与多个概念,一个概念也可能分散在多个方向上。
这让解释变难。你不能只看单个神经元最大激活样本,就断言它的意义。真正的特征可能是高维空间中的方向,而不是坐标轴上的某个神经元。
Superposition 解释了为什么大模型可以在有限维度中编码大量稀疏特征,也解释了为什么直接人工命名神经元经常不可靠。
五、Sparse Autoencoder
Sparse Autoencoder(SAE)试图从模型激活中学习一组稀疏特征。它把 dense activation 分解成许多更可解释的 feature,希望这些 feature 更接近人类可命名概念。
SAE 的吸引力在于,它把 superposition 中叠在一起的特征拆开。研究者可以观察某个 SAE feature 在什么文本上激活,再通过干预测试它是否影响模型输出。
但 SAE 也不是银弹。特征是否真正语义清晰、是否因果重要、是否跨上下文稳定,都需要验证。解释大模型不是把 activation 过一遍 SAE 就完成了。
六、归因路径与残差流
Transformer 的残差流像一条信息高速公路。attention 和 MLP 不断向其中写入增量,后续层再读取。机制解释常常要追踪信息如何在残差流中移动。
归因方法会尝试分解输出 logit 来自哪些层、哪些 head、哪些 MLP。Logit lens、path patching、direct logit attribution 等工具都在回答类似问题:哪个内部路径对最终 token 分数贡献最大?
这些方法让我们更接近“模型如何算出这个 token”,但大模型行为通常跨层、跨组件、跨特征,解释仍然非常困难。
七、关键概念回顾
- circuit:共同实现某种行为的一组内部组件。
- induction head:用于识别并延续上下文重复模式的 attention head。
- activation patching:替换内部激活,测试因果作用。
- superposition:多个特征叠加在同一组神经元维度中。
- Sparse Autoencoder:把 dense activation 分解成稀疏 feature 的工具。
- 残差流:Transformer 层间传递和累积信息的主通道。
八、常见误解
8.1 “找到一个 head 就解释了模型”
不对。大多数行为由多层、多 head、MLP 和残差路径共同决定。
8.2 “SAE feature 一定是真实概念”
SAE feature 是分析工具,是否对应稳定概念和因果机制需要验证。
8.3 “机制可解释性已经能完整解释 LLM”
远远没有。它在小模型和局部行为上进展明显,但整体解释仍是开放问题。
九、下一步
机制可解释性关注内部计算。下一篇转向行为层面的宏观现象:为什么模型变大后会出现上下文学习、思维链等看起来“涌现”的能力。
十、参考文献
- Elhage, N. et al. “A Mathematical Framework for Transformer Circuits.” Anthropic, 2021.
- Olsson, C. et al. “In-context Learning and Induction Heads.” Anthropic, 2022.
- Meng, K. et al. “Locating and Editing Factual Associations in GPT.” NeurIPS 2022.
- Bricken, T. et al. “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.” Anthropic, 2023.
← 上一篇:52|可解释性入门 | 下一篇:54|涌现能力 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。
【Transformer 与注意力机制】41|位置编码演进:Sinusoidal → Learned → RoPE → ALiBi
Transformer 本身没有递归和卷积,如果不注入位置信息,它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi,解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”,以及长上下文为什么让位置外推变成核心问题。