qkv 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】系列总览

2026-04-15 | transformer | #transformer #attention #qkv #multi-head #causal-mask #softmax #ffn #llm #deep-learning #ai

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

【Transformer 与注意力机制】13｜Q/K/V 三件套：把 Bahdanau 抽象成一个公式

2026-04-15 | transformer | #transformer #attention #qkv #scaled-dot-product

信息检索类比 → Bahdanau 到 Q/K/V 的演化 → 为什么要分开 Q/K/V → softmax($QK^\top$/$\sqrt{d_k}$)V 公式逐项拆解 → 维度走查 → 三 token、d_k=2 的玩具示例手算 → additive vs multiplicative 取舍 → 自注意力时 Q/K/V 同源的特殊性。这是整个系列最重要的一篇。