【Transformer 与注意力机制】16|Multi-Head Attention:为什么要分多个头
单头 attention 只有一组 softmax 权重,只能在一种相似度度量下做一次聚合。Multi-Head Attention 通过多套独立的 Q/K/V 投影,让模型在同一步内并行建模多种关系,并在几乎不增加参数量的前提下提升表达力。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
单头 attention 只有一组 softmax 权重,只能在一种相似度度量下做一次聚合。Multi-Head Attention 通过多套独立的 Q/K/V 投影,让模型在同一步内并行建模多种关系,并在几乎不增加参数量的前提下提升表达力。