probing 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】52|可解释性入门:注意力权重真的是“解释”吗

Transformer 的 attention weight 很容易被画成热力图,但“看起来关注哪里”不等于“模型为什么这样回答”。本文区分用户解释、行为解释和机制解释,解释 attention is not explanation 的争议,以及梯度、遮挡实验、探针和因果干预各自能说明什么。