【Transformer 与注意力机制】53｜机制可解释性：电路、特征、归因

52｜可解释性入门讲过，attention weight 不是完整解释。机制可解释性更进一步：它不满足于画热力图，而是试图找出模型内部真实参与计算的组件和路径。

这条路线把 Transformer 当成可研究的计算系统。某些 head 可能负责复制模式，某些 MLP feature 可能表示概念，残差流可能在层与层之间搬运信息。问题是：能不能把这些组件组织成“电路”，解释某个具体行为？

本篇能让你学会三件事：

什么是 circuit，为什么 induction head 是经典案例；
activation patching 如何提供因果证据；
superposition 和 Sparse Autoencoder 为什么成为近年热点。

一、什么是 circuit

在机制可解释性里，circuit 指一组内部组件及其连接，共同实现某种行为。它可能包括 attention head、MLP neuron、残差流方向和层间路径。

比如模型在看到 “A B … A” 后预测 “B”，可能依赖某些 head 复制前文模式。这个行为不是单个神经元完成，而是一组模块协作完成。

找 circuit 的目标不是给模型贴标签，而是建立因果模型：如果关掉这些组件，行为是否消失？如果把它们从干净样本 patch 到损坏样本，行为是否恢复？

二、Induction heads

Induction head 是 Transformer 机制可解释性中最有名的例子之一。它大致实现一种模式：当前上下文出现过某个 token 序列时，模型可以根据前一次出现后的 token 来预测当前后续。

这类似简单的上下文复制能力，也是 in-context learning 的基础现象之一。研究者在小 Transformer 中观察到某些 attention head 专门形成这种“查找前一次出现位置并复制后继”的行为。

Induction head 的价值不在于解释所有能力，而在于证明某些可解释电路确实存在，并且可以通过训练过程、激活和干预来研究。

三、Activation patching

Activation patching 是一种因果干预方法。准备一个 clean prompt 和一个 corrupted prompt，clean 能让模型输出正确答案，corrupted 会让模型失败。然后把 clean 运行中的某个内部激活替换到 corrupted 运行中，看输出是否恢复。

如果替换某层某位置的激活能恢复答案，说明那里携带了关键因果信息。进一步细分到 head、MLP、残差流方向，就可以定位更具体的机制。

这比只看相关性更强。它直接问：改变这里，结果会不会变？当然，patching 也有边界。激活替换可能制造不自然状态，结论需要结合多种实验。

四、Superposition：一个神经元不等于一个概念

早期解释神经网络时，人们常想找“某个神经元表示某个概念”。但大模型内部常有 superposition：有限维度中叠加表示大量特征。一个神经元可能参与多个概念，一个概念也可能分散在多个方向上。

这让解释变难。你不能只看单个神经元最大激活样本，就断言它的意义。真正的特征可能是高维空间中的方向，而不是坐标轴上的某个神经元。

Superposition 解释了为什么大模型可以在有限维度中编码大量稀疏特征，也解释了为什么直接人工命名神经元经常不可靠。

五、Sparse Autoencoder

Sparse Autoencoder（SAE）试图从模型激活中学习一组稀疏特征。它把 dense activation 分解成许多更可解释的 feature，希望这些 feature 更接近人类可命名概念。

SAE 的吸引力在于，它把 superposition 中叠在一起的特征拆开。研究者可以观察某个 SAE feature 在什么文本上激活，再通过干预测试它是否影响模型输出。

但 SAE 也不是银弹。特征是否真正语义清晰、是否因果重要、是否跨上下文稳定，都需要验证。解释大模型不是把 activation 过一遍 SAE 就完成了。

六、归因路径与残差流

Transformer 的残差流像一条信息高速公路。attention 和 MLP 不断向其中写入增量，后续层再读取。机制解释常常要追踪信息如何在残差流中移动。

归因方法会尝试分解输出 logit 来自哪些层、哪些 head、哪些 MLP。Logit lens、path patching、direct logit attribution 等工具都在回答类似问题：哪个内部路径对最终 token 分数贡献最大？

这些方法让我们更接近“模型如何算出这个 token”，但大模型行为通常跨层、跨组件、跨特征，解释仍然非常困难。

七、关键概念回顾

circuit：共同实现某种行为的一组内部组件。
induction head：用于识别并延续上下文重复模式的 attention head。
activation patching：替换内部激活，测试因果作用。
superposition：多个特征叠加在同一组神经元维度中。
Sparse Autoencoder：把 dense activation 分解成稀疏 feature 的工具。
残差流：Transformer 层间传递和累积信息的主通道。

八、常见误解

8.1 “找到一个 head 就解释了模型”

不对。大多数行为由多层、多 head、MLP 和残差路径共同决定。

8.2 “SAE feature 一定是真实概念”

SAE feature 是分析工具，是否对应稳定概念和因果机制需要验证。

8.3 “机制可解释性已经能完整解释 LLM”

远远没有。它在小模型和局部行为上进展明显，但整体解释仍是开放问题。

九、下一步

机制可解释性关注内部计算。下一篇转向行为层面的宏观现象：为什么模型变大后会出现上下文学习、思维链等看起来“涌现”的能力。

十、参考文献

Elhage, N. et al. “A Mathematical Framework for Transformer Circuits.” Anthropic, 2021.
Olsson, C. et al. “In-context Learning and Induction Heads.” Anthropic, 2022.
Meng, K. et al. “Locating and Editing Factual Associations in GPT.” NeurIPS 2022.
Bricken, T. et al. “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.” Anthropic, 2023.

← 上一篇：52｜可解释性入门　|　下一篇：54｜涌现能力 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer