probing 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】52｜可解释性入门：注意力权重真的是“解释”吗

Transformer 的 attention weight 很容易被画成热力图，但“看起来关注哪里”不等于“模型为什么这样回答”。本文区分用户解释、行为解释和机制解释，解释 attention is not explanation 的争议，以及梯度、遮挡实验、探针和因果干预各自能说明什么。