土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】53|机制可解释性:电路、特征、归因

文章导航

分类入口
transformer
标签入口
#transformer#mechanistic-interpretability#circuits#sparse-autoencoder#activation-patching

目录

52|可解释性入门 讲过,attention weight 不是完整解释。机制可解释性更进一步:它不满足于画热力图,而是试图找出模型内部真实参与计算的组件和路径。

这条路线把 Transformer 当成可研究的计算系统。某些 head 可能负责复制模式,某些 MLP feature 可能表示概念,残差流可能在层与层之间搬运信息。问题是:能不能把这些组件组织成“电路”,解释某个具体行为?

本篇能让你学会三件事:

  1. 什么是 circuit,为什么 induction head 是经典案例;
  2. activation patching 如何提供因果证据;
  3. superposition 和 Sparse Autoencoder 为什么成为近年热点。

一、什么是 circuit

在机制可解释性里,circuit 指一组内部组件及其连接,共同实现某种行为。它可能包括 attention head、MLP neuron、残差流方向和层间路径。

比如模型在看到 “A B … A” 后预测 “B”,可能依赖某些 head 复制前文模式。这个行为不是单个神经元完成,而是一组模块协作完成。

找 circuit 的目标不是给模型贴标签,而是建立因果模型:如果关掉这些组件,行为是否消失?如果把它们从干净样本 patch 到损坏样本,行为是否恢复?


二、Induction heads

Induction head 是 Transformer 机制可解释性中最有名的例子之一。它大致实现一种模式:当前上下文出现过某个 token 序列时,模型可以根据前一次出现后的 token 来预测当前后续。

这类似简单的上下文复制能力,也是 in-context learning 的基础现象之一。研究者在小 Transformer 中观察到某些 attention head 专门形成这种“查找前一次出现位置并复制后继”的行为。

Induction head 的价值不在于解释所有能力,而在于证明某些可解释电路确实存在,并且可以通过训练过程、激活和干预来研究。


三、Activation patching

Activation patching 是一种因果干预方法。准备一个 clean prompt 和一个 corrupted prompt,clean 能让模型输出正确答案,corrupted 会让模型失败。然后把 clean 运行中的某个内部激活替换到 corrupted 运行中,看输出是否恢复。

如果替换某层某位置的激活能恢复答案,说明那里携带了关键因果信息。进一步细分到 head、MLP、残差流方向,就可以定位更具体的机制。

这比只看相关性更强。它直接问:改变这里,结果会不会变?当然,patching 也有边界。激活替换可能制造不自然状态,结论需要结合多种实验。


四、Superposition:一个神经元不等于一个概念

早期解释神经网络时,人们常想找“某个神经元表示某个概念”。但大模型内部常有 superposition:有限维度中叠加表示大量特征。一个神经元可能参与多个概念,一个概念也可能分散在多个方向上。

这让解释变难。你不能只看单个神经元最大激活样本,就断言它的意义。真正的特征可能是高维空间中的方向,而不是坐标轴上的某个神经元。

Superposition 解释了为什么大模型可以在有限维度中编码大量稀疏特征,也解释了为什么直接人工命名神经元经常不可靠。


五、Sparse Autoencoder

Sparse Autoencoder(SAE)试图从模型激活中学习一组稀疏特征。它把 dense activation 分解成许多更可解释的 feature,希望这些 feature 更接近人类可命名概念。

SAE 的吸引力在于,它把 superposition 中叠在一起的特征拆开。研究者可以观察某个 SAE feature 在什么文本上激活,再通过干预测试它是否影响模型输出。

但 SAE 也不是银弹。特征是否真正语义清晰、是否因果重要、是否跨上下文稳定,都需要验证。解释大模型不是把 activation 过一遍 SAE 就完成了。


六、归因路径与残差流

Transformer 的残差流像一条信息高速公路。attention 和 MLP 不断向其中写入增量,后续层再读取。机制解释常常要追踪信息如何在残差流中移动。

归因方法会尝试分解输出 logit 来自哪些层、哪些 head、哪些 MLP。Logit lens、path patching、direct logit attribution 等工具都在回答类似问题:哪个内部路径对最终 token 分数贡献最大?

这些方法让我们更接近“模型如何算出这个 token”,但大模型行为通常跨层、跨组件、跨特征,解释仍然非常困难。


七、关键概念回顾


八、常见误解

8.1 “找到一个 head 就解释了模型”

不对。大多数行为由多层、多 head、MLP 和残差路径共同决定。

8.2 “SAE feature 一定是真实概念”

SAE feature 是分析工具,是否对应稳定概念和因果机制需要验证。

8.3 “机制可解释性已经能完整解释 LLM”

远远没有。它在小模型和局部行为上进展明显,但整体解释仍是开放问题。


九、下一步

机制可解释性关注内部计算。下一篇转向行为层面的宏观现象:为什么模型变大后会出现上下文学习、思维链等看起来“涌现”的能力。


十、参考文献

  1. Elhage, N. et al. “A Mathematical Framework for Transformer Circuits.” Anthropic, 2021.
  2. Olsson, C. et al. “In-context Learning and Induction Heads.” Anthropic, 2022.
  3. Meng, K. et al. “Locating and Editing Factual Associations in GPT.” NeurIPS 2022.
  4. Bricken, T. et al. “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.” Anthropic, 2023.

← 上一篇:52|可解释性入门 | 下一篇:54|涌现能力

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .