multi-head 标签归档 | 土法炼钢兴趣小组的算法知识备份

multi-head 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】系列总览

2026-04-15 | transformer | #transformer #attention #qkv #multi-head #causal-mask #softmax #ffn #llm #deep-learning #ai

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

【Transformer 与注意力机制】16｜Multi-Head Attention：为什么要分多个头

2026-04-15 | transformer | #attention #multi-head #transformer #scaled-dot-product #model-architecture

单头 attention 只有一组 softmax 权重，只能在一种相似度度量下做一次聚合。Multi-Head Attention 通过多套独立的 Q/K/V 投影，让模型在同一步内并行建模多种关系，并在几乎不增加参数量的前提下提升表达力。