【Transformer 与注意力机制】52|可解释性入门:注意力权重真的是“解释”吗
Transformer 的 attention weight 很容易被画成热力图,但“看起来关注哪里”不等于“模型为什么这样回答”。本文区分用户解释、行为解释和机制解释,解释 attention is not explanation 的争议,以及梯度、遮挡实验、探针和因果干预各自能说明什么。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
Transformer 的 attention weight 很容易被画成热力图,但“看起来关注哪里”不等于“模型为什么这样回答”。本文区分用户解释、行为解释和机制解释,解释 attention is not explanation 的争议,以及梯度、遮挡实验、探针和因果干预各自能说明什么。