transformer 分类归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】58｜后 Transformer 时代：架构会消失还是会进化

2026-04-15 | transformer | #transformer #post-transformer #architecture #llm #future

后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer，更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线，解释为什么 Transformer 很难突然消失，也为什么它不可能原样解决所有问题。

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

2026-06-09 | transformer | #transformer #attention #degeneration #decoding #causal-mask #kv-cache #numerical-stability #repetition

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字，这不是随机 bug，而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发，解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染，并给出从架构到运行时的多层防线。

【Transformer 与注意力机制】系列总览

2026-04-15 | transformer | #transformer #attention #qkv #multi-head #causal-mask #softmax #ffn #llm #deep-learning #ai

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

【Transformer 与注意力机制】01｜为什么要从这里开始

2026-04-15 | transformer | #transformer #attention #llm #deep-learning #ai #intro

这是【Transformer 与注意力机制】系列的第一篇，承担两件事：一是把这套五十多篇文章为谁写、解决什么问题、彼此之间是什么关系交代清楚；二是为完全没基础的读者画出一条从向量、点积、矩阵乘法走到自注意力、再走到大语言模型的爬升路径，让你在投入时间之前先知道终点在哪、路上要经过哪些坎、读完之后你会、还不会做什么事。

【Transformer 与注意力机制】02 向量与点积的几何直觉

2026-04-15 | transformer | #向量 #点积 #内积 #余弦相似度 #注意力 #Transformer

从二维平面上的箭头开始，把『向量、内积、夹角、相似度』这几个概念用几何方式串起来，最后落到注意力公式里那个 QK^T 的来历。

【Transformer 与注意力机制】03 矩阵乘法的两种视角

2026-04-15 | transformer | #矩阵乘法 #矩阵 #线性代数 #GEMM #attention #Transformer

把矩阵乘法掰开成两种等价但风格不同的视角——『行 × 列』的点积视角和『列的线性组合』视角，最终落到 QK^T 的形状分析。

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

2026-04-15 | transformer | #transformer #pretraining #gpt #bert #t5

这篇文章只比较文本模型里最重要的三类预训练目标：GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义，而是看清它们各自优化什么接口、为什么迁移方式不同，以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。

【Transformer 与注意力机制】28｜原论文实验结果：为什么 28.4 BLEU 足以改写路线图

2026-04-15 | transformer | #transformer #attention-is-all-you-need #bleu #benchmark #machine-translation

把《Attention Is All You Need》的实验结果拆开看：WMT14 英德与英法任务上的 headline number 到底意味着什么，为什么 8 张 P100、3.5 天训练就足以压过当时最强的 RNN 与 CNN 路线，注意力可视化又真实说明了什么，哪些地方是结论，哪些地方只是 2017 年特定 benchmark 下的胜利。

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

2026-04-15 | transformer | #transformer #ffn #mlp #swiglu #moe

把 Transformer block 里那个看起来最不起眼的两层 MLP 真正讲清楚——4 倍扩张比的来历、逐位置而不是跨位置的设计、Geva 等人 2021 年提出的「键值记忆」视角、SwiGLU/GLU/GeGLU 的现代变体、参数量分布、可解释性研究、量化时的瓶颈，以及它和 MoE 的关系。

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

2026-04-15 | transformer | #transformer #training #learning-rate #warmup #label-smoothing #adam

把 2017 年 Transformer 原论文的训练配方完整复现一遍——数据集、硬件、优化器、学习率公式、warmup、label smoothing、dropout、batching by tokens、beam search 推理。重点解释那个看起来很神秘的学习率公式 lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5))，以及为什么 warmup_steps=4000 这个魔法常数不能去掉。

【Transformer 与注意力机制】24｜残差连接：为什么深层网络必须留一条直路

2026-04-15 | transformer | #transformer #residual #resnet #pre-norm #optimization

从 ResNet 的核心思想出发，讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法，而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么现代大模型会讨论 residual scaling，以及 residual stream 为什么会成为理解大模型机制时的重要观察对象。

【Transformer 与注意力机制】25｜Layer Normalization：为什么 Transformer 用 LN，不用 BN

2026-04-15 | transformer | #transformer #layernorm #batchnorm #rmsnorm #optimization

从公式到工程把 LayerNorm 讲清楚：它在每个 token 内部如何做归一化，为什么比 BatchNorm 更适合变长序列和自回归训练，post-LN 与 pre-LN 对梯度路径有什么影响，RMSNorm 又为什么会在现代大模型里大量替代标准 LN。

【Transformer 与注意力机制】38｜GPT 系列：从 GPT-1 到 GPT-4 的路线演进

2026-04-15 | transformer | #transformer #gpt #decoder-only #autoregressive #llm

GPT 路线的关键不是某个模型名字，而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4，只使用公开可确认信息，解释为什么自回归语言模型最终成为大语言模型时代的主线。

【Transformer 与注意力机制】39｜T5：把所有 NLP 任务统一成 Text-to-Text

2026-04-15 | transformer | #transformer #t5 #text-to-text #encoder-decoder #span-corruption

T5 的核心不是又发明了一种 Transformer，而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构，span corruption 和 BERT/GPT 的目标有什么差异，C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。

【Transformer 与注意力机制】40｜三大路线之争：为什么大模型几乎都是 Decoder-only

2026-04-15 | transformer | #transformer #encoder-only #encoder-decoder #decoder-only #llm

Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线，解释为什么通用大模型时代 Decoder-only 占主流，以及为什么这不意味着另外两条路线失去价值。

【Transformer 与注意力机制】41｜位置编码演进：Sinusoidal → Learned → RoPE → ALiBi

2026-04-15 | transformer | #transformer #positional-encoding #rope #alibi #long-context

Transformer 本身没有递归和卷积，如果不注入位置信息，它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi，解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”，以及长上下文为什么让位置外推变成核心问题。

【Transformer 与注意力机制】42｜FlashAttention：注意力计算的硬件级重写

2026-04-15 | transformer | #transformer #flashattention #attention #gpu #memory-io

FlashAttention 的关键不是近似注意力，也不是把公式改掉，而是重新安排标准 attention 在 GPU 内存层级里的计算路径。本文解释为什么标准 attention 的瓶颈常常是 HBM 读写，FlashAttention 如何用 tiling 和 online softmax 避免物化完整注意力矩阵，以及它为什么省显存、提吞吐，却没有消除 O(n²) 的根本复杂度。

【Transformer 与注意力机制】43｜稀疏与局部注意力：Longformer、BigBird、Sparse Transformer

2026-04-15 | transformer | #transformer #sparse-attention #longformer #bigbird #long-context

FlashAttention 优化的是 full attention 的实现路径，稀疏注意力则直接改变 token 之间的连接图。本文解释局部窗口、全局 token、随机连接和结构化稀疏为什么能降低长序列成本，以及 Longformer、BigBird、Sparse Transformer 各自代表什么取舍。

【Transformer 与注意力机制】44｜MoE：稀疏激活的万亿模型路径

2026-04-15 | transformer | #transformer #moe #mixture-of-experts #sparse-activation #switch-transformer

MoE 的关键不是把很多模型简单拼成 ensemble，而是让每个 token 通过 router 只激活少数专家，从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN，Switch Transformer、GShard、Mixtral 代表什么，以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。

【Transformer 与注意力机制】45｜ViT：图像怎么变成 token

2026-04-15 | transformer | #transformer #vit #vision-transformer #patch-embedding #multimodal

ViT 的关键不是把每个像素当成 token，而是把图像切成 patch，再把每个 patch 映射成向量序列。本文解释 CNN 的归纳偏置是什么，ViT 如何用 patch embedding、位置编码和 CLS token 处理图像，为什么它一开始依赖大数据，以及 DeiT、Swin Transformer 如何补足数据效率和层级结构。

【Transformer 与注意力机制】46｜多模态融合：CLIP、Flamingo、LLaVA、SAM

2026-04-15 | transformer | #transformer #multimodal #clip #llava #sam

多模态模型的核心不是把图片简单转成文字，而是让图像、文本、mask、视频等不同模态在表示空间、注意力结构和任务接口上对齐。本文用 CLIP、Flamingo、LLaVA、SAM 四条线解释图文对比学习、视觉语言连接器、视觉指令微调和 promptable segmentation。

【Transformer 与注意力机制】47｜Diffusion + Transformer：DiT 与 Sora 为什么用 Transformer

2026-04-15 | transformer | #transformer #diffusion #dit #sora #video-generation

扩散模型早期常用 U-Net 作为去噪网络，但当图像和视频被表示成 latent patch token 后，Transformer 也可以成为扩散模型 backbone。本文解释 DiT 如何把 latent patch、时间步和条件信息送入 Transformer，为什么它有更清晰的 scaling 行为，以及视频生成为什么把序列长度问题放大到极致。

【Transformer 与注意力机制】48｜从 logits 到文本：贪心、Beam Search、采样的几何直觉

2026-04-15 | transformer | #transformer #decoding #sampling #beam-search #logits

语言模型不会直接输出“答案”，它每一步输出的是下一个 token 的 logits。本文解释 logits、softmax 和概率分布的关系，比较贪心解码、Beam Search、temperature、top-k、top-p、重复惩罚等策略，说明为什么解码不是模型之外的小细节，而是直接决定文本风格、稳定性和幻觉风险的决策层。

【Transformer 与注意力机制】49｜KV Cache：推理为什么是 O(n) 不是 O(n²)

2026-04-15 | transformer | #transformer #kv-cache #inference #autoregressive-decoding #attention

自回归推理和训练不是同一种程序。本文解释 KV Cache 为什么成立：历史 token 的 Key/Value 一旦算出，在后续 decode 中不会改变；缓存它们可以避免反复重算前缀。文章同时讲清 prefill 与 decode 的差异、cache 显存公式、长上下文为什么受限，以及 PagedAttention、MQA/GQA、cache 量化等方向各自在解决什么。

【Transformer 与注意力机制】50｜Speculative Decoding：用小模型加速大模型

2026-04-15 | transformer | #transformer #speculative-decoding #inference #draft-model #llm-serving

KV Cache 避免了重复计算历史前缀，但自回归生成仍然一个 token 接一个 token。Speculative Decoding 的思路是让小 draft model 先草拟多个 token，再由大 target model 批量验证，在保持目标模型分布正确的前提下降低延迟。本文解释它的算法直觉、接受率瓶颈和适用边界。

【Transformer 与注意力机制】51｜量化、蒸馏、剪枝：让大模型跑在小硬件上

2026-04-15 | transformer | #transformer #quantization #distillation #pruning #compression

大模型部署的瓶颈不只有参数量，还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么：量化降低数值精度，蒸馏把大模型行为迁移到小模型，剪枝移除不重要结构；并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。

【Transformer 与注意力机制】52｜可解释性入门：注意力权重真的是“解释”吗

2026-04-15 | transformer | #transformer #interpretability #attention #probing #explainability

Transformer 的 attention weight 很容易被画成热力图，但“看起来关注哪里”不等于“模型为什么这样回答”。本文区分用户解释、行为解释和机制解释，解释 attention is not explanation 的争议，以及梯度、遮挡实验、探针和因果干预各自能说明什么。

【Transformer 与注意力机制】53｜机制可解释性：电路、特征、归因

2026-04-15 | transformer | #transformer #mechanistic-interpretability #circuits #sparse-autoencoder #activation-patching

机制可解释性不满足于“模型看起来关注哪里”，而是试图找出 Transformer 内部哪些 head、MLP feature、残差流路径共同实现了某种行为。本文解释 induction heads、activation patching、superposition、Sparse Autoencoder 和电路分析的基本思想，以及为什么它们接近因果解释却仍远未解决大模型整体解释。

【Transformer 与注意力机制】54｜涌现能力：上下文学习与思维链为什么会出现

2026-04-15 | transformer | #transformer #emergence #in-context-learning #chain-of-thought #scaling

大模型能力有时看起来会突然出现，但“涌现”既包含真实规模效应，也受到指标阈值、任务格式和评测方法影响。本文解释 emergent abilities 的争议、in-context learning、Chain-of-Thought、规模与数据的关系，以及为什么不能把涌现神秘化。

【Transformer 与注意力机制】55｜Transformer 的根本局限：为什么 O(n²) 是终极瓶颈

2026-04-15 | transformer | #transformer #long-context #attention-complexity #architecture #limitations

Transformer 的成功没有消除它的结构性代价。本文区分工程瓶颈和架构瓶颈，解释 O(n²) attention、KV Cache 线性增长、自回归串行性、长上下文与长期记忆的差异、位置外推和数据效率问题，并说明为什么 Mamba、RWKV、RetNet、线性注意力等路线都在试图绕开同一组限制。

【Transformer 与注意力机制】56｜状态空间模型：Mamba、S4 的线性复杂度路径

2026-04-15 | transformer | #transformer #state-space-model #mamba #s4 #long-sequence

Transformer 的 full attention 在长序列上代价高昂，状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba，解释 selective state space、parallel scan 为什么重要，以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。

【Transformer 与注意力机制】57｜RWKV / RetNet / 线性注意力：各种降低复杂度的探索

2026-04-15 | transformer | #transformer #rwkv #retnet #linear-attention #post-transformer

后 Transformer 路线不是一条路。线性注意力试图改写 softmax attention，RWKV 把 RNN 推理形态和 Transformer 训练经验结合，RetNet 在 parallel、recurrent、chunkwise 三种模式之间建立 retention 机制。本文比较这些路线如何降低长序列成本，以及它们为什么仍要面对质量、硬件和训练稳定性的考验。

【Transformer 与注意力机制】36｜训练稳定性：损失尖峰、混合精度与梯度爆炸

2026-04-15 | transformer | #transformer #training-stability #loss-spike #mixed-precision #gradient-clipping

大模型训练最怕的不是 loss 降得慢，而是它在看起来一切正常时突然尖峰、发散、NaN。本文把 Transformer 训练稳定性拆开讲：梯度为什么会爆炸，warmup 为什么重要，FP16/BF16 混合精度有什么数值陷阱，Pre-LN 为什么比 Post-LN 更容易训深，以及为什么稳定性是一套诊断系统，不是一个超参魔法。

【Transformer 与注意力机制】37｜BERT：双向编码器为什么适合理解任务

2026-04-15 | transformer | #transformer #bert #encoder-only #masked-language-model #nlp

BERT 不是“早期大模型”的历史遗物，而是 Encoder-only Transformer 路线的代表。本文解释为什么 BERT 选择双向编码器，Masked Language Modeling 到底在学什么，Next Sentence Prediction 为什么后来被质疑，以及为什么 BERT 天然适合分类、匹配、抽取这类理解任务，却不是自回归生成模型。

【Transformer 与注意力机制】21｜位置编码：为什么需要它，为什么用正弦

2026-04-15 | transformer | #transformer #positional-encoding #sinusoidal #attention

从「self-attention 是排列等变的」这件几乎被忽视的事实出发，推导出位置编码不是装饰、不是工程小技巧，而是结构性必需。原论文为什么选正弦、那个奇怪的 10000 是怎么来的、PE 与 embedding 是相加还是拼接、可学习位置和 sinusoidal 的本质差别在哪、为什么训练 512 推理 2048 会让可学习位置难以直接外推——这一篇把这些问题一次讲完，并把读者交到现代位置编码（RoPE、ALiBi）的门口。

【Transformer 与注意力机制】22｜Encoder 详解：6 层堆叠到底在做什么

2026-04-15 | transformer | #transformer #encoder #self-attention #bert #architecture

把 Transformer encoder 从“左半边”这个模糊概念拆成可操作的结构：单层里 self-attention、FFN、残差、LayerNorm 各做什么；6 层堆叠为什么不是重复劳动；encoder 输出为什么适合理解任务而不直接擅长生成；以及它和 decoder-only、encoder-decoder 两条路线到底差在哪。

【Transformer 与注意力机制】23｜Decoder 详解：为什么它天生适合生成

2026-04-15 | transformer | #transformer #decoder #causal-mask #autoregressive #gpt

把 Transformer decoder 拆开讲透：masked self-attention、cross-attention、FFN 三块子层如何串起来；训练时为什么能并行、推理时为什么必须串行；以及 decoder-only 为什么会成为 GPT 时代的主流路线。

【Transformer 与注意力机制】29｜Tokenization：为什么不是字，也不是词

2026-04-15 | transformer | #transformer #tokenization #bpe #wordpiece #sentencepiece

从“模型到底在预测什么最小单位”这个问题出发，把 tokenization 讲清楚：按词为什么 OOV 爆炸，按字节或字符为什么序列太长，BPE、WordPiece、SentencePiece 分别怎么切、各自优化目标是什么，为什么现代大模型最后大多落在“子词 + 字节兜底”这条折中路线上。

【Transformer 与注意力机制】31｜微调演进：从全参数到 LoRA

2026-04-15 | transformer | #transformer #fine-tuning #lora #peft #qlora

全参数微调的代价 → Adapter / Prefix Tuning / Prompt Tuning 的早期尝试 → LoRA 低秩分解的核心洞察 → r 与 alpha 的真实关系 → QLoRA 与 DoRA 的工程演进 → 与全参数微调的效果对比 → 灾难性遗忘与多任务部署。这一篇把「为什么不再有人对 7B 模型做全参数 SFT」讲清楚。

【Transformer 与注意力机制】32｜指令微调：把“会续写”变成“会听话”

2026-04-15 | transformer | #transformer #instruction-tuning #sft #flan #instructgpt

预训练模型会补全，不等于会按人类意图回答。本文把 instruction tuning 的逻辑讲清楚：SFT 数据从哪里来，prompt-response 格式为什么能改写模型行为，FLAN、InstructGPT、Self-Instruct、LIMA、Orca 分别贡献了什么，以及为什么“会听话”本质上是分布重定向，而不是凭空长出新知识。

【Transformer 与注意力机制】33｜RLHF：从 PPO 到 DPO，再到 GRPO

2026-04-15 | transformer | #transformer #rlhf #ppo #dpo #grpo

SFT 只能让模型学会模仿示范答案，不能充分表达“人更喜欢哪种回答”。本文把 RLHF 的主线讲透：奖励模型为什么出现，PPO 版本的 RLHF 解决了什么又带来了什么成本，DPO 为什么能绕开显式强化学习，GRPO 又为什么在可验证奖励和推理场景里流行起来。

【Transformer 与注意力机制】34｜Scaling Laws：为什么大模型常常不是“不够大”，而是“训不够”

2026-04-15 | transformer | #transformer #scaling-laws #chinchilla #kaplan #compute-optimal

从 Kaplan 到 Chinchilla，把 scaling laws 讲清楚：为什么 loss 会随着参数量、数据量、计算量呈幂律下降，为什么“更大模型”不是唯一答案，compute-optimal 训练到底在优化什么，以及为什么过去很多大模型其实不是参数太少，而是每个参数看到的 token 太少。

【Transformer 与注意力机制】35｜数据工程：为什么数据质量常常比数据量更重要

2026-04-15 | transformer | #transformer #data-engineering #pretraining-data #deduplication #data-quality

大模型训练里最贵的不只是算力，还是高质量数据。本文把数据工程拆开讲：语料从哪里来，为什么去重、过滤、混配、污染控制都属于“模型能力工程”，C4、The Pile、RefinedWeb、Dolma 这些语料路线各自代表什么，以及为什么 scaling laws 最终会把问题推回到数据质量上。

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

2026-04-15 | transformer | #attention #causal-mask #autoregressive #teacher-forcing #decoder #kv-cache #attention-sink

自回归语言模型的核心约束是：预测 t 时刻只能用 t 之前的信息。Causal Mask 用一个上三角的 -∞ 矩阵让 softmax 之后未来位置的权重恒为零，使得模型在训练时能并行计算所有时间步、推理时严格自回归。本文从 teacher forcing 到 attention sink，把 causal mask 在训练、推理、长上下文中的所有面相讲清楚。

【Transformer 与注意力机制】18｜注意力的复杂度问题

2026-04-15 | transformer | #transformer #attention #complexity #efficiency #flashattention #sparse #long-context

为什么 attention 是 O(n²)，O(n²) 到底贵在哪里，5 类降复杂度方案的优劣，FlashAttention 不是 O(n) 这件事，长上下文是怎么把架构师逼疯的。

【Transformer 与注意力机制】20｜Transformer 整体架构：一张图看懂

2026-04-15 | transformer | #transformer #architecture #encoder #decoder #overview #summary

把 18 篇文章里讲过的所有零件——QKV、多头注意力、causal mask、位置编码、FFN、残差、归一化——拼成一张完整的 Transformer 图。跟随一个 token 走完从输入到输出的全部旅程，建立对架构的「身体记忆」。

【Transformer 与注意力机制】16｜Multi-Head Attention：为什么要分多个头

2026-04-15 | transformer | #attention #multi-head #transformer #scaled-dot-product #model-architecture

单头 attention 只有一组 softmax 权重，只能在一种相似度度量下做一次聚合。Multi-Head Attention 通过多套独立的 Q/K/V 投影，让模型在同一步内并行建模多种关系，并在几乎不增加参数量的前提下提升表达力。

15｜Scaled Dot-Product：那个根号 d_k 是怎么来的

2026-04-15 | transformer | #attention #softmax #scaling #variance #transformer

> 本文从零推导注意力机制点积方差的来源，解释缩放因子如何防范梯度弥散，并作为大模型 Scaling Laws 数值稳定的基石。

【Transformer 与注意力机制】14｜Self-Attention：让序列自己看自己

2026-04-15 | transformer | #transformer #attention #self-attention #permutation-equivariance

从 cross-attention 到 self-attention 的退化路径 → 为什么 self-attention 是 O(1) 跳数 → 为什么它对位置完全无知（permutation-equivariant） → 「The cat sat on the mat. It was tired.」中 it→cat 的共指消解 → 为什么需要位置编码 → attention 不等于解释（向第 52 篇预告）。

【Transformer 与注意力机制】13｜Q/K/V 三件套：把 Bahdanau 抽象成一个公式

2026-04-15 | transformer | #transformer #attention #qkv #scaled-dot-product

信息检索类比 → Bahdanau 到 Q/K/V 的演化 → 为什么要分开 Q/K/V → softmax($QK^\top$/$\sqrt{d_k}$)V 公式逐项拆解 → 维度走查 → 三 token、d_k=2 的玩具示例手算 → additive vs multiplicative 取舍 → 自注意力时 Q/K/V 同源的特殊性。这是整个系列最重要的一篇。

【Transformer 与注意力机制】12｜Bahdanau Attention：注意力的早期形态

2026-04-15 | transformer | #attention #bahdanau #nmt #additive-attention #history #transformer

把 Bahdanau, Cho, Bengio 2014 那篇「Neural Machine Translation by Jointly Learning to Align and Translate」逐项拆开。固定 context vector 的瓶颈、双向 RNN 编码、additive attention 公式 vᵀtanh(W₁s + W₂h)、与 Luong 2015 multiplicative attention 的取舍，以及为什么这是 Q/K/V 的雏形。

【Transformer 与注意力机制】10 RNN 的根本局限：为什么需要 Transformer

2026-04-15 | transformer | #transformer #rnn #attention #长程依赖

RNN 三难（长程依赖、梯度稳定、训练并行）的系统分析；attention 如何作为补丁逐步把 RNN 推向极限；Vaswani 2017 抛弃循环的范式革命

【Transformer 与注意力机制】11｜「注意力」的直觉

2026-04-15 | transformer | #attention #soft-alignment #softmax #intuition #transformer

从人类阅读时的眼动出发，把「注意力」拆成视觉生理、翻译对齐、加权平均三件事。讲清楚为什么权重必须满足非负与和为一、为什么 softmax 不是审美选择而是可微优先的工程结果，以及为什么我们要选连续概率选择而不是 argmax。

【Transformer 与注意力机制】09 RNN 与序列建模：Transformer 之前的世界

2026-04-15 | transformer | #transformer #rnn #lstm #gru #seq2seq #bptt

在 Transformer 出现之前，序列建模属于 RNN 的世界。本文从 Vanilla RNN 讲起，经过 BPTT、梯度消失爆炸、LSTM、GRU，到 Sutskever 2014 的 Seq2Seq 框架，完整讲述 RNN 时代的故事和它留下的工程经验。

【Transformer 与注意力机制】08.5 神经网络基础：从 MLP 到 RNN 的最后一块地基

2026-05-10 | transformer | #transformer #neural-network #mlp #backpropagation #deep-learning #rnn

用 6 张 matplotlib 图和一个真实可运行的 toy MLP，把神经网络从单神经元、前向传播、损失函数、反向求导、梯度下降、NumPy/PyTorch 实现一路讲到为什么序列任务最终需要 RNN。

【Transformer 与注意力机制】08 嵌入：从 one-hot 到分布式表示

2026-04-15 | transformer | #embedding #word2vec #glove #distributional hypothesis #bert #transformer

embedding 是把离散的词变成稠密向量的桥梁。从 one-hot 的痛苦出发，经过 Firth 的分布假设、word2vec、GloVe、ELMo、BERT，一路走到现代 LLM 的 embedding 矩阵，本文把这条 70 年的演化讲清楚。

【Transformer 与注意力机制】07 Softmax 与概率分布：从分数到选择的桥

2026-04-15 | transformer | #softmax #概率分布 #交叉熵 #温度采样 #数值稳定性 #attention #transformer

Softmax 不是一个孤立的归一化函数，而是把任意实数分数变成概率分布的一座桥。本文从'为什么需要它'出发，讲清楚公式、几何、温度、稳定性、与交叉熵的配合，以及它在 Transformer 注意力里扮演的关键角色。

【Transformer 与注意力机制】06｜梯度下降与反向传播

2026-04-15 | transformer | #gradient-descent #backpropagation #optimizer #adam #transformer

神经网络真正会「学习」靠的是两件事：把误差变成可微分的损失函数，再沿着这个损失对参数的梯度方向一点点往下挪。本文从一维抛物线讲到多变量梯度，从两层网络的手算反向传播讲到为什么 backprop 是 O(参数量)，再到 Transformer 为什么几乎一律选 Adam/AdamW，希望把「网络是怎么学的」这件事彻底讲透。

【Transformer 与注意力机制】05. 激活函数：让网络「弯下来」的非线性魔法

2026-04-15 | transformer | #transformer #激活函数 #ReLU #GELU #SwiGLU #非线性

上一篇我们论证了一件事——纯线性的网络再深，也只是一个线性变换。把 $W2(W1\mathbf{x} + \mathbf{b}1) + \mathbf{b}2$ 展开就是 $W'\mathbf{x} + \mathbf{b}'$。线性的复合还是线性，这是线性代数的铁律。

【Transformer 与注意力机制】04. 函数与神经网络：从 y=f(x) 到一台可学习的拟合机器

2026-04-15 | transformer | #transformer #神经网络 #函数 #万能逼近 #深度学习

如果你问我「神经网络到底是什么」，我会先把所有教材合上，然后给你一句朴素得近乎敷衍的话——神经网络就是一个函数。

【Transformer 与注意力机制】19｜《Attention Is All You Need》论文背景

2026-04-15 | transformer | #transformer #history #attention #paper-reading #vaswani #google #nmt

回到 2017 年 6 月那篇论文：八位作者、Google Brain/Translate 的内部背景、LSTM 时代的工程困境、为什么这篇在当年是「机器翻译的论文」、为什么七年后却被读成了「大模型时代的圣经」。