一、这个系列要回答的五个问题
写这套系列,是因为我自己每次回答下面五个问题时,都得翻十几篇论文、几本书和几十个博客拼起来。我想把它们一次性讲清楚。
「注意力」到底是什么?为什么是 Q/K/V 这三个矩阵的组合,不是别的?
这是整个系列的核心。从最朴素的「相似度加权求和」一路推导到 multi-head attention,看清楚每一层抽象解决了什么问题。详见第二部分(11–18 篇)与论文精读(19–28 篇)。Transformer 为什么取代了 RNN?工程与原理上的本质不同在哪?
这不是「Transformer 更新所以更好」这么简单。RNN 的并行性、长程依赖、梯度三件事不能同时解决,而 Transformer 用 attention + 残差 + LayerNorm 几乎把这三件事一次性绕开。详见 09、10、20、24、25 篇。一个 token 从输入到输出的完整旅程是什么?每一步在做什么?
把一个汉字 / 一个英文词 / 一个图像 patch 从被切分、嵌入、加位置、过若干层 attention + FFN,最后变成 logits、被 sample 出下一个 token,这条路上每一步都不应该是黑盒。详见 29、20–28、48、49 篇。模型规模、训练数据、参数量之间是什么关系?为什么「大」就一定「好」?
Scaling Laws 不是「越大越好」的同义词,它是一个有最优配比的三角约束。Chinchilla 法则说明了过去十年大模型训练里大部分实验其实「训不够久」。详见 34、35、36 篇。Transformer 是终点吗?它有什么根本局限,未来会被什么替代?
Mamba、RWKV、RetNet、线性注意力、混合架构都在尝试绕开 O(n²)。它们各自给出什么权衡,谁有可能赢?详见 55–58 篇。
二、篇目依赖关系与推荐阅读路径
这套系列共 58 篇,分八部分。后面的阅读路径帮不同背景的读者跳过自己已经熟悉的部分。
强依赖
[01–08 数学与基础]
│
▼
[09–10 RNN 局限] ──┐
▼
[11–18 注意力机制原理] ──┐
▼
[19–28《Attention Is All You Need》逐段精读]
│
┌───────────────────────┼───────────────────────┐
▼ ▼ ▼
[29–36 训练范式] [37–47 模型变体] [48–51 推理工程]
│
▼
[52–54 可解释性]
│
▼
[55–58 架构反思与未来]
推荐阅读路径
完全入门(高中生 / 文科生 / 产品经理)
01 → 02 → 03 → 07 → 11 → 12 → 13 → 20 → 38 → 48算法工程师转 NLP
04 → 05 → 09 → 10 → 13 → 14 → 16 → 20 → 27 → 29 → 30 → 38研究者深读论文
13 → 14 → 15 → 16 → 19 → 20 → 21 → 22 → 23 → 27 → 28工程师做推理优化
20 → 22 → 26 → 41 → 42 → 48 → 49 → 50(配合 llm-infra)关心架构未来
10 → 18 → 41 → 42 → 44 → 55 → 56 → 57 → 58多模态方向
20 → 38 → 45 → 46 → 47
三、目录与每篇一句话价值
第一部分:数学与神经网络基础
- 01. 为什么要从这里开始:交代目标读者、阅读路径、与本系列的能给与不能给。
- 02. 向量与点积的几何直觉:把高中向量讲到「相似度」,这是注意力的根。
- 03. 矩阵乘法:一次性做很多个点积:解释为什么神经网络的核心运算是矩阵乘法。
- 04. 从函数到神经网络:神经网络的本质是「学习一个可调函数」。
- 05. 激活函数与非线性:没有非线性就什么都学不到。
- 06. 梯度下降与反向传播:网络如何通过梯度「学」。
- 07. Softmax 与概率分布:注意力机制的关键齿轮。
- 08. 嵌入(Embedding):从 one-hot 到上下文向量的演进。
- 09. RNN 与序列建模:Transformer 之前人们怎么做序列。
- 10. RNN 的根本局限:长程依赖 + 梯度 + 并行三件事不能同时解决。
第二部分:注意力机制原理
- 11. 「注意力」的直觉:用人类阅读做类比,引出权重。
- 12. Bahdanau Attention:注意力的早期形态,2014 年翻译任务。
- 13. Query/Key/Value 三件套:把加权求和分解成 QKV 的数学推导。
- 14. Self-Attention:当 Q、K、V 来自同一来源。
- 15. Scaled Dot-Product:那个 √d_k 是怎么来的。
- 16. Multi-Head Attention:为什么要分多个头。
- 17. Causal Mask:让模型只看过去不看未来。
- 18. 注意力的复杂度问题:O(n²) 是后续所有长上下文工作的根源。
第三部分:《Attention Is All You Need》逐段精读
- 19. 论文背景:2017 年 Google Brain 在做什么。
- 20. Transformer 整体架构:一张图看懂 Encoder-Decoder 全景。
- 21. 位置编码:为什么需要它,为什么用正弦。
- 22. Encoder 详解:6 层堆叠的结构与意义。
- 23. Decoder 详解:Masked Self-Attention + Cross-Attention。
- 24. 残差连接:为什么要绕一条捷径。
- 25. Layer Normalization:为什么 Transformer 用 LN 不用 BN。
- 26. 前馈网络:那个看似平平无奇的两层 MLP,其实是「记忆」所在。
- 27. 训练目标与优化:原论文怎么训出来的。
- 28. 原论文实验结果:BLEU、训练成本、原始数据。
第四部分:现代训练范式
- 29. Tokenization:BPE / WordPiece / SentencePiece,为什么不是字也不是词。
- 30. 预训练目标:BERT 与 GPT 的根本路线分歧。
- 31. 微调演进:从全参数微调到 LoRA。
- 32. 指令微调:把「补全」变成「听话」。
- 33. RLHF:从 PPO 到 DPO 到 GRPO 的演进逻辑。
- 34. Scaling Laws:Chinchilla 法则与最优训练配方。
- 35. 数据工程:数据质量比数据量重要。
- 36. 训练稳定性:损失尖峰、混合精度陷阱。
第五部分:模型变体与架构演进
- 37. BERT:双向编码器为什么适合理解任务。
- 38. GPT 系列:从 GPT-1 到 GPT-4 的演进逻辑。
- 39. T5:把所有 NLP 任务统一成 Text-to-Text。
- 40. 三大路线之争:为什么大模型几乎都是 Decoder-only。
- 41. 位置编码演进:Sinusoidal → Learned → RoPE → ALiBi。
- 42. FlashAttention:注意力计算的硬件级重写。
- 43. 稀疏与局部注意力:Longformer、BigBird、Sparse Transformer。
- 44. MoE:稀疏激活的万亿模型路径。
- 45. ViT:图像怎么变成 token。
- 46. 多模态融合:CLIP、Flamingo、LLaVA、SAM。
- 47. Diffusion + Transformer:DiT 与 Sora 用 Transformer 不用 U-Net 的原因。
第六部分:推理工程
- 48. 从 logits 到文本:贪心、Beam Search、采样的几何直觉。
- 49. KV Cache:推理为什么是 O(n) 不是 O(n²)。
- 50. Speculative Decoding:用小模型加速大模型。
- 51. 量化、蒸馏、剪枝:让大模型跑在小硬件上。
第七部分:训练与可解释性
- 52. 可解释性入门:注意力权重真的是「解释」吗。
- 53. 机制可解释性:电路、特征、归因。
- 54. 涌现能力:上下文学习与思维链为什么会出现。
第八部分:架构反思与未来
- 55. Transformer 的根本局限:为什么 O(n²) 是终极瓶颈。
- 56. 状态空间模型:Mamba、S4 的线性复杂度路径。
- 57. RWKV / RetNet / 线性注意力:各种降低复杂度的探索。
- 58. 后 Transformer 时代:架构会消失还是会进化。
四、与其他系列的关联
- 工程实现细节(GPU、CUDA、并行训练、推理服务化)请看 llm-infra 系列。
- 量化交易里的 ML 部分有时会借用 Transformer,请看 quant 系列。
- 分布式系统的共识、复制、容错请看 分布式系统百科。
五、本系列的承诺与不承诺
承诺:
- 所有数学推导从可验证的起点出发,不跳步;
- 所有论文引用给出真实标题、作者、年份;
- 所有「为什么这样设计」都尝试给出至少一种解释;
- 不写 AI 腔、不写讲义卡片、不堆砌 bullet。
不承诺:
- 不承诺让你直接能调出一个 SOTA 模型,那是工程系列要做的事;
- 不会列举所有变体,只挑代表性、有教学价值的;
- 不预测哪家大模型公司会赢,那是商业问题不是技术问题。
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】01|为什么要从这里开始
这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。
【Transformer 与注意力机制】03 矩阵乘法的两种视角
把矩阵乘法掰开成两种等价但风格不同的视角——『行 × 列』的点积视角和『列的线性组合』视角,最终落到 QK^T 的形状分析。
【Transformer 与注意力机制】10 RNN 的根本局限:为什么需要 Transformer
RNN 三难(长程依赖、梯度稳定、训练并行)的系统分析;attention 如何作为补丁逐步把 RNN 推向极限;Vaswani 2017 抛弃循环的范式革命
15|Scaled Dot-Product:那个 √d_k 是怎么来的
很多人第一次读 Vaswani 2017 的公式时,都会卡在那一个 √dk 上。