土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】系列总览

文章导航

分类入口
transformer
标签入口
#transformer#attention#llm#deep-learning#ai

目录

一、这个系列要回答的五个问题

写这套系列,是因为我自己每次回答下面五个问题时,都得翻十几篇论文、几本书和几十个博客拼起来。我想把它们一次性讲清楚。

  1. 「注意力」到底是什么?为什么是 Q/K/V 这三个矩阵的组合,不是别的?
    这是整个系列的核心。从最朴素的「相似度加权求和」一路推导到 multi-head attention,看清楚每一层抽象解决了什么问题。详见第二部分(11–18 篇)与论文精读(19–28 篇)。

  2. Transformer 为什么取代了 RNN?工程与原理上的本质不同在哪?
    这不是「Transformer 更新所以更好」这么简单。RNN 的并行性、长程依赖、梯度三件事不能同时解决,而 Transformer 用 attention + 残差 + LayerNorm 几乎把这三件事一次性绕开。详见 09、10、20、24、25 篇。

  3. 一个 token 从输入到输出的完整旅程是什么?每一步在做什么?
    把一个汉字 / 一个英文词 / 一个图像 patch 从被切分、嵌入、加位置、过若干层 attention + FFN,最后变成 logits、被 sample 出下一个 token,这条路上每一步都不应该是黑盒。详见 29、20–28、48、49 篇。

  4. 模型规模、训练数据、参数量之间是什么关系?为什么「大」就一定「好」?
    Scaling Laws 不是「越大越好」的同义词,它是一个有最优配比的三角约束。Chinchilla 法则说明了过去十年大模型训练里大部分实验其实「训不够久」。详见 34、35、36 篇。

  5. Transformer 是终点吗?它有什么根本局限,未来会被什么替代?
    Mamba、RWKV、RetNet、线性注意力、混合架构都在尝试绕开 O(n²)。它们各自给出什么权衡,谁有可能赢?详见 55–58 篇。

二、篇目依赖关系与推荐阅读路径

这套系列共 58 篇,分八部分。后面的阅读路径帮不同背景的读者跳过自己已经熟悉的部分。

强依赖

[01–08 数学与基础]
        │
        ▼
[09–10 RNN 局限] ──┐
                   ▼
            [11–18 注意力机制原理] ──┐
                                    ▼
                          [19–28《Attention Is All You Need》逐段精读]
                                    │
            ┌───────────────────────┼───────────────────────┐
            ▼                       ▼                       ▼
   [29–36 训练范式]           [37–47 模型变体]        [48–51 推理工程]
                                    │
                                    ▼
                          [52–54 可解释性]
                                    │
                                    ▼
                          [55–58 架构反思与未来]

推荐阅读路径

三、目录与每篇一句话价值

第一部分:数学与神经网络基础

第二部分:注意力机制原理

第三部分:《Attention Is All You Need》逐段精读

第四部分:现代训练范式

第五部分:模型变体与架构演进

第六部分:推理工程

第七部分:训练与可解释性

第八部分:架构反思与未来

四、与其他系列的关联

五、本系列的承诺与不承诺

承诺

不承诺

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】01|为什么要从这里开始

这是【Transformer 与注意力机制】系列的第一篇,承担两件事:一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚;二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径,让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。


By .