土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】系列总览

文章导航

分类入口
transformer
标签入口
#transformer#attention#llm#deep-learning#ai

目录

一、这个系列要回答的五个问题

写这套系列,是因为我自己每次回答下面五个问题时,都得翻十几篇论文、几本书和几十个博客拼起来。我想把它们一次性讲清楚。

  1. 「注意力」到底是什么?为什么是 Q/K/V 这三个矩阵的组合,不是别的?
    这是整个系列的核心。从最朴素的「相似度加权求和」一路推导到 multi-head attention,看清楚每一层抽象解决了什么问题。详见第二部分(11–18 篇)与论文精读(19–28 篇)。

  2. Transformer 为什么取代了 RNN?工程与原理上的本质不同在哪?
    这不是「Transformer 更新所以更好」这么简单。RNN 的并行性、长程依赖、梯度三件事不能同时解决,而 Transformer 用 attention + 残差 + LayerNorm 几乎把这三件事一次性绕开。详见 09、10、20、24、25 篇。

  3. 一个 token 从输入到输出的完整旅程是什么?每一步在做什么?
    把一个汉字 / 一个英文词 / 一个图像 patch 从被切分、嵌入、加位置、过若干层 attention + FFN,最后变成 logits、被 sample 出下一个 token,这条路上每一步都不应该是黑盒。详见 29、20–28、48、49 篇。

  4. 模型规模、训练数据、参数量之间是什么关系?为什么「大」就一定「好」?
    Scaling Laws 不是「越大越好」的同义词,它是一个有最优配比的三角约束。Chinchilla 法则说明了过去十年大模型训练里大部分实验其实「训不够久」。详见 34、35、36 篇。

  5. Transformer 是终点吗?它有什么根本局限,未来会被什么替代?
    Mamba、RWKV、RetNet、线性注意力、混合架构都在尝试绕开 O(n²)。它们各自给出什么权衡,谁有可能赢?详见 55–58 篇。

二、篇目依赖关系与推荐阅读路径

这套系列主线共 58 篇,分八部分;另外加了一篇 08.5 桥接文,用来把普通神经网络和 RNN 之间的关系讲顺。后面的阅读路径帮不同背景的读者跳过自己已经熟悉的部分。

强依赖

[01–08.5 数学与神经网络基础]
        │
        ▼
[09–10 RNN 局限] ──┐
                   ▼
            [11–18 注意力机制原理] ──┐
                                    ▼
                          [19–28《Attention Is All You Need》逐段精读]
                                    │
            ┌───────────────────────┼───────────────────────┐
            ▼                       ▼                       ▼
   [29–36 训练范式]           [37–47 模型变体]        [48–51 推理工程]
                                    │
                                    ▼
                          [52–54 可解释性]
                                    │
                                    ▼
                          [55–58 架构反思与未来]

推荐阅读路径

三、目录与每篇一句话价值

第一部分:数学与神经网络基础

第二部分:注意力机制原理

第三部分:《Attention Is All You Need》逐段精读

第四部分:现代训练范式

第五部分:模型变体与架构演进

第六部分:推理工程

第七部分:训练与可解释性

第八部分:架构反思与未来

四、与其他系列的关联

五、本系列的承诺与不承诺

承诺

不承诺

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】01|为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。

2026-04-15 · transformer

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

从 cross-attention 到 self-attention 的退化路径 → 为什么 self-attention 是 O(1) 跳数 → 为什么它对位置完全无知(permutation-equivariant) → 「The cat sat on the mat. It was tired.」中 it→cat 的共指消解 → 为什么需要位置编码 → attention 不等于解释(向第 52 篇预告)。

2026-04-15 · transformer

【Transformer 与注意力机制】16|Multi-Head Attention:为什么要分多个头

单头注意力一次只能学一种关系,但语言里同时存在句法、指代、语义、位置等多重模式。Multi-Head Attention 把 d_model 切成 h 份并行做 attention,让模型在不增加参数量的前提下,同一步内同时形成多个独立的注意力分布。本文从直觉、数学、代码、可视化四个层面讲清楚为什么 Transformer 一定要多头。


By .