attention 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】42｜FlashAttention：注意力计算的硬件级重写

2026-04-15 | transformer | #transformer #flashattention #attention #gpu #memory-io

FlashAttention 的关键不是近似注意力，也不是把公式改掉，而是重新安排标准 attention 在 GPU 内存层级里的计算路径。本文解释为什么标准 attention 的瓶颈常常是 HBM 读写，FlashAttention 如何用 tiling 和 online softmax 避免物化完整注意力矩阵，以及它为什么省显存、提吞吐，却没有消除 O(n²) 的根本复杂度。

【Transformer 与注意力机制】49｜KV Cache：推理为什么是 O(n) 不是 O(n²)

2026-04-15 | transformer | #transformer #kv-cache #inference #autoregressive-decoding #attention

自回归推理和训练不是同一种程序。本文解释 KV Cache 为什么成立：历史 token 的 Key/Value 一旦算出，在后续 decode 中不会改变；缓存它们可以避免反复重算前缀。文章同时讲清 prefill 与 decode 的差异、cache 显存公式、长上下文为什么受限，以及 PagedAttention、MQA/GQA、cache 量化等方向各自在解决什么。

【Transformer 与注意力机制】52｜可解释性入门：注意力权重真的是“解释”吗

2026-04-15 | transformer | #transformer #interpretability #attention #probing #explainability

Transformer 的 attention weight 很容易被画成热力图，但“看起来关注哪里”不等于“模型为什么这样回答”。本文区分用户解释、行为解释和机制解释，解释 attention is not explanation 的争议，以及梯度、遮挡实验、探针和因果干预各自能说明什么。

【Transformer 与注意力机制】21｜位置编码：为什么需要它，为什么用正弦

2026-04-15 | transformer | #transformer #positional-encoding #sinusoidal #attention

从「self-attention 是排列等变的」这件几乎被忽视的事实出发，推导出位置编码不是装饰、不是工程小技巧，而是结构性必需。原论文为什么选正弦、那个奇怪的 10000 是怎么来的、PE 与 embedding 是相加还是拼接、可学习位置和 sinusoidal 的本质差别在哪、为什么训练 512 推理 2048 会让可学习位置难以直接外推——这一篇把这些问题一次讲完，并把读者交到现代位置编码（RoPE、ALiBi）的门口。

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

2026-04-15 | transformer | #attention #causal-mask #autoregressive #teacher-forcing #decoder #kv-cache #attention-sink

自回归语言模型的核心约束是：预测 t 时刻只能用 t 之前的信息。Causal Mask 用一个上三角的 -∞ 矩阵让 softmax 之后未来位置的权重恒为零，使得模型在训练时能并行计算所有时间步、推理时严格自回归。本文从 teacher forcing 到 attention sink，把 causal mask 在训练、推理、长上下文中的所有面相讲清楚。

【Transformer 与注意力机制】18｜注意力的复杂度问题

2026-04-15 | transformer | #transformer #attention #complexity #efficiency #flashattention #sparse #long-context

为什么 attention 是 O(n²)，O(n²) 到底贵在哪里，5 类降复杂度方案的优劣，FlashAttention 不是 O(n) 这件事，长上下文是怎么把架构师逼疯的。

【Transformer 与注意力机制】16｜Multi-Head Attention：为什么要分多个头

2026-04-15 | transformer | #attention #multi-head #transformer #scaled-dot-product #model-architecture

单头 attention 只有一组 softmax 权重，只能在一种相似度度量下做一次聚合。Multi-Head Attention 通过多套独立的 Q/K/V 投影，让模型在同一步内并行建模多种关系，并在几乎不增加参数量的前提下提升表达力。

15｜Scaled Dot-Product：那个根号 d_k 是怎么来的

2026-04-15 | transformer | #attention #softmax #scaling #variance #transformer

> 本文从零推导注意力机制点积方差的来源，解释缩放因子如何防范梯度弥散，并作为大模型 Scaling Laws 数值稳定的基石。

【Transformer 与注意力机制】14｜Self-Attention：让序列自己看自己

2026-04-15 | transformer | #transformer #attention #self-attention #permutation-equivariance

从 cross-attention 到 self-attention 的退化路径 → 为什么 self-attention 是 O(1) 跳数 → 为什么它对位置完全无知（permutation-equivariant） → 「The cat sat on the mat. It was tired.」中 it→cat 的共指消解 → 为什么需要位置编码 → attention 不等于解释（向第 52 篇预告）。

【Transformer 与注意力机制】13｜Q/K/V 三件套：把 Bahdanau 抽象成一个公式

2026-04-15 | transformer | #transformer #attention #qkv #scaled-dot-product

信息检索类比 → Bahdanau 到 Q/K/V 的演化 → 为什么要分开 Q/K/V → softmax($QK^\top$/$\sqrt{d_k}$)V 公式逐项拆解 → 维度走查 → 三 token、d_k=2 的玩具示例手算 → additive vs multiplicative 取舍 → 自注意力时 Q/K/V 同源的特殊性。这是整个系列最重要的一篇。

【Transformer 与注意力机制】12｜Bahdanau Attention：注意力的早期形态

2026-04-15 | transformer | #attention #bahdanau #nmt #additive-attention #history #transformer

把 Bahdanau, Cho, Bengio 2014 那篇「Neural Machine Translation by Jointly Learning to Align and Translate」逐项拆开。固定 context vector 的瓶颈、双向 RNN 编码、additive attention 公式 vᵀtanh(W₁s + W₂h)、与 Luong 2015 multiplicative attention 的取舍，以及为什么这是 Q/K/V 的雏形。

【Transformer 与注意力机制】10 RNN 的根本局限：为什么需要 Transformer

2026-04-15 | transformer | #transformer #rnn #attention #长程依赖

RNN 三难（长程依赖、梯度稳定、训练并行）的系统分析；attention 如何作为补丁逐步把 RNN 推向极限；Vaswani 2017 抛弃循环的范式革命

【Transformer 与注意力机制】11｜「注意力」的直觉

2026-04-15 | transformer | #attention #soft-alignment #softmax #intuition #transformer

从人类阅读时的眼动出发，把「注意力」拆成视觉生理、翻译对齐、加权平均三件事。讲清楚为什么权重必须满足非负与和为一、为什么 softmax 不是审美选择而是可微优先的工程结果，以及为什么我们要选连续概率选择而不是 argmax。

【Transformer 与注意力机制】系列总览

2026-04-15 | transformer | #transformer #attention #llm #deep-learning #ai

从《Attention Is All You Need》出发，把注意力机制、Transformer 架构、训练范式、模型变体、推理工程、可解释性与未来架构串成一条 58 篇主线加一篇桥接文的深度博客线。

【Transformer 与注意力机制】07 Softmax 与概率分布：从分数到选择的桥

2026-04-15 | transformer | #softmax #概率分布 #交叉熵 #温度采样 #数值稳定性 #attention #transformer

Softmax 不是一个孤立的归一化函数，而是把任意实数分数变成概率分布的一座桥。本文从'为什么需要它'出发，讲清楚公式、几何、温度、稳定性、与交叉熵的配合，以及它在 Transformer 注意力里扮演的关键角色。

【Transformer 与注意力机制】03 矩阵乘法的两种视角

2026-04-15 | transformer | #矩阵乘法 #矩阵 #线性代数 #GEMM #attention #Transformer

把矩阵乘法掰开成两种等价但风格不同的视角——『行 × 列』的点积视角和『列的线性组合』视角，最终落到 QK^T 的形状分析。

【Transformer 与注意力机制】01｜为什么要从这里开始

2026-04-15 | transformer | #transformer #attention #llm #deep-learning #ai #intro

这是【Transformer 与注意力机制】系列的第一篇，承担两件事：一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚；二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径，让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。

【Transformer 与注意力机制】19｜《Attention Is All You Need》论文背景

2026-04-15 | transformer | #transformer #history #attention #paper-reading #vaswani #google #nmt

回到 2017 年 6 月那篇论文：八位作者、Google Brain/Translate 的内部背景、LSTM 时代的工程困境、为什么这篇在当年是「机器翻译的论文」、为什么七年后却被读成了「大模型时代的圣经」。