【Transformer 与注意力机制】系列总览

一、这个系列要回答的五个问题

写这套系列，是因为我自己每次回答下面五个问题时，都得翻十几篇论文、几本书和几十个博客拼起来。我想把它们一次性讲清楚。

「注意力」到底是什么？为什么是 Q/K/V 这三个矩阵的组合，不是别的？
这是整个系列的核心。从最朴素的「相似度加权求和」一路推导到 multi-head attention，看清楚每一层抽象解决了什么问题。详见第二部分（11–18 篇）与论文精读（19–28 篇）。
Transformer 为什么取代了 RNN？工程与原理上的本质不同在哪？
这不是「Transformer 更新所以更好」这么简单。RNN 的并行性、长程依赖、梯度三件事不能同时解决，而 Transformer 用 attention + 残差 + LayerNorm 几乎把这三件事一次性绕开。详见 09、10、20、24、25 篇。
一个 token 从输入到输出的完整旅程是什么？每一步在做什么？
把一个汉字 / 一个英文词 / 一个图像 patch 从被切分、嵌入、加位置、过若干层 attention + FFN，最后变成 logits、被 sample 出下一个 token，这条路上每一步都不应该是黑盒。详见 29、20–28、48、49 篇。
模型规模、训练数据、参数量之间是什么关系？为什么「大」就一定「好」？
Scaling Laws 不是「越大越好」的同义词，它是一个有最优配比的三角约束。Chinchilla 法则说明了过去十年大模型训练里大部分实验其实「训不够久」。详见 34、35、36 篇。
Transformer 是终点吗？它有什么根本局限，未来会被什么替代？
Mamba、RWKV、RetNet、线性注意力、混合架构都在尝试绕开 O(n²)。它们各自给出什么权衡，谁有可能赢？详见 55–58 篇。

二、篇目依赖关系与推荐阅读路径

这套系列主线共 58 篇，分八部分；另外加了一篇 08.5 桥接文，用来把普通神经网络和 RNN 之间的关系讲顺。后面的阅读路径帮不同背景的读者跳过自己已经熟悉的部分。

强依赖

[01–08.5 数学与神经网络基础]
        │
        ▼
[09–10 RNN 局限] ──┐
                   ▼
            [11–18 注意力机制原理] ──┐
                                    ▼
                          [19–28《Attention Is All You Need》逐段精读]
                                    │
            ┌───────────────────────┼───────────────────────┐
            ▼                       ▼                       ▼
   [29–36 训练范式]           [37–47 模型变体]        [48–51 推理工程]
                                    │
                                    ▼
                          [52–54 可解释性]
                                    │
                                    ▼
                          [55–58 架构反思与未来]

三、目录与每篇一句话价值

第一部分：数学与神经网络基础

01. 为什么要从这里开始：交代目标读者、阅读路径、与本系列的能给与不能给。
02. 向量与点积的几何直觉：把高中向量讲到「相似度」，这是注意力的根。
03. 矩阵乘法：一次性做很多个点积：解释为什么神经网络的核心运算是矩阵乘法。
04. 从函数到神经网络：神经网络的本质是「学习一个可调函数」。
05. 激活函数与非线性：没有非线性就什么都学不到。
06. 梯度下降与反向传播：网络如何通过梯度「学」。
07. Softmax 与概率分布：注意力机制的关键齿轮。
08. 嵌入（Embedding）：从 one-hot 到上下文向量的演进。
08.5. 神经网络基础：把 MLP 的计算、训练和形状讲清楚，为 RNN 的循环做最后铺垫。
09. RNN 与序列建模：Transformer 之前人们怎么做序列。
10. RNN 的根本局限：长程依赖 + 梯度 + 并行三件事不能同时解决。

第二部分：注意力机制原理

11. 「注意力」的直觉：用人类阅读做类比，引出权重。
12. Bahdanau Attention：注意力的早期形态，2014 年翻译任务。
13. Query/Key/Value 三件套：把加权求和分解成 QKV 的数学推导。
14. Self-Attention：当 Q、K、V 来自同一来源。
15. Scaled Dot-Product：那个 √d_k 是怎么来的。
16. Multi-Head Attention：为什么要分多个头。
17. Causal Mask：让模型只看过去不看未来。
18. 注意力的复杂度问题：O(n²) 是后续所有长上下文工作的根源。

第三部分：《Attention Is All You Need》逐段精读

19. 论文背景：2017 年 Google Brain 在做什么。
20. Transformer 整体架构：一张图看懂 Encoder-Decoder 全景。
21. 位置编码：为什么需要它，为什么用正弦。
22. Encoder 详解：6 层堆叠的结构与意义。
23. Decoder 详解：Masked Self-Attention + Cross-Attention。
24. 残差连接：为什么要绕一条捷径。
25. Layer Normalization：为什么 Transformer 用 LN 不用 BN。
26. 前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在。
27. 训练目标与优化：原论文怎么训出来的。
28. 原论文实验结果：BLEU、训练成本、原始数据。

第四部分：现代训练范式

29. Tokenization：BPE / WordPiece / SentencePiece，为什么不是字也不是词。
30. 预训练目标：BERT 与 GPT 的根本路线分歧。
31. 微调演进：从全参数微调到 LoRA。
32. 指令微调：把「补全」变成「听话」。
33. RLHF：从 PPO 到 DPO 到 GRPO 的演进逻辑。
34. Scaling Laws：Chinchilla 法则与最优训练配方。
35. 数据工程：数据质量比数据量重要。
36. 训练稳定性：损失尖峰、混合精度陷阱。

第五部分：模型变体与架构演进

37. BERT：双向编码器为什么适合理解任务。
38. GPT 系列：从 GPT-1 到 GPT-4 的演进逻辑。
39. T5：把所有 NLP 任务统一成 Text-to-Text。
40. 三大路线之争：为什么大模型几乎都是 Decoder-only。
41. 位置编码演进：Sinusoidal → Learned → RoPE → ALiBi。
42. FlashAttention：注意力计算的硬件级重写。
43. 稀疏与局部注意力：Longformer、BigBird、Sparse Transformer。
44. MoE：稀疏激活的万亿模型路径。
45. ViT：图像怎么变成 token。
46. 多模态融合：CLIP、Flamingo、LLaVA、SAM。
47. Diffusion + Transformer：DiT 与 Sora 用 Transformer 不用 U-Net 的原因。

第六部分：推理工程

48. 从 logits 到文本：贪心、Beam Search、采样的几何直觉。
49. KV Cache：推理为什么是 O(n) 不是 O(n²)。
50. Speculative Decoding：用小模型加速大模型。
51. 量化、蒸馏、剪枝：让大模型跑在小硬件上。

第七部分：训练与可解释性

52. 可解释性入门：注意力权重真的是「解释」吗。
53. 机制可解释性：电路、特征、归因。
54. 涌现能力：上下文学习与思维链为什么会出现。

第八部分：架构反思与未来

55. Transformer 的根本局限：为什么 O(n²) 是终极瓶颈。
56. 状态空间模型：Mamba、S4 的线性复杂度路径。
57. RWKV / RetNet / 线性注意力：各种降低复杂度的探索。
58. 后 Transformer 时代：架构会消失还是会进化。

四、与其他系列的关联

工程实现细节（GPU、CUDA、并行训练、推理服务化）请看 llm-infra 系列。
量化交易里的 ML 部分有时会借用 Transformer，请看 quant 系列。
分布式系统的共识、复制、容错请看分布式系统百科。

五、本系列的承诺与不承诺

承诺：

所有数学推导从可验证的起点出发，不跳步；
所有论文引用给出真实标题、作者、年份；
所有「为什么这样设计」都尝试给出至少一种解释；
不写 AI 腔、不写讲义卡片、不堆砌 bullet。

不承诺：

不承诺让你直接能调出一个 SOTA 模型，那是工程系列要做的事；
不会列举所有变体，只挑代表性、有教学价值的；
不预测哪家大模型公司会赢，那是商业问题不是技术问题。

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】01｜为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇，承担两件事：一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚；二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径，让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。

2026-04-15 · transformer

【Transformer 与注意力机制】13｜Q/K/V 三件套：把 Bahdanau 抽象成一个公式

信息检索类比 → Bahdanau 到 Q/K/V 的演化 → 为什么要分开 Q/K/V → softmax($QK^\top$/$\sqrt{d_k}$)V 公式逐项拆解 → 维度走查 → 三 token、d_k=2 的玩具示例手算 → additive vs multiplicative 取舍 → 自注意力时 Q/K/V 同源的特殊性。这是整个系列最重要的一篇。

2026-04-15 · transformer

【Transformer 与注意力机制】14｜Self-Attention：让序列自己看自己

从 cross-attention 到 self-attention 的退化路径 → 为什么 self-attention 是 O(1) 跳数 → 为什么它对位置完全无知（permutation-equivariant） → 「The cat sat on the mat. It was tired.」中 it→cat 的共指消解 → 为什么需要位置编码 → attention 不等于解释（向第 52 篇预告）。

2026-04-15 · transformer

【Transformer 与注意力机制】16｜Multi-Head Attention：为什么要分多个头

单头注意力一次只能学一种关系，但语言里同时存在句法、指代、语义、位置等多重模式。Multi-Head Attention 把 d_model 切成 h 份并行做 attention，让模型在不增加参数量的前提下，同一步内同时形成多个独立的注意力分布。本文从直觉、数学、代码、可视化四个层面讲清楚为什么 Transformer 一定要多头。

文章导航

目录

一、这个系列要回答的五个问题

二、篇目依赖关系与推荐阅读路径

强依赖

推荐阅读路径

三、目录与每篇一句话价值

第一部分：数学与神经网络基础

第二部分：注意力机制原理

第三部分：《Attention Is All You Need》逐段精读

第四部分：现代训练范式

第五部分：模型变体与架构演进

第六部分：推理工程

第七部分：训练与可解释性

第八部分：架构反思与未来

四、与其他系列的关联

五、本系列的承诺与不承诺

同主题继续阅读

【Transformer 与注意力机制】01｜为什么要从这里开始

【Transformer 与注意力机制】13｜Q/K/V 三件套：把 Bahdanau 抽象成一个公式

【Transformer 与注意力机制】14｜Self-Attention：让序列自己看自己

【Transformer 与注意力机制】16｜Multi-Head Attention：为什么要分多个头