一篇模型论文真正改变领域,不是因为它画了一张新结构图,而是因为它在大家共同承认的任务上赢了。《Attention Is All You Need》也是一样。今天我们回头看它,最容易记住的是“attention 取代 RNN”,但 2017 年真正让整个社区闭嘴的是一组很具体的结果:
- WMT14 English-to-German:28.4 BLEU
- WMT14 English-to-French:41.8 BLEU
- 训练硬件:8 张 P100
- 训练时长:base 约 12 小时,big 约 3.5 天
这些数字的冲击力,在今天这个千卡训练、万亿 token 的时代很容易被低估。它们当时意味着:一个完全不依赖 recurrence 和 convolution 的新结构,不只是“也能跑”,而是在质量和训练效率上同时把主流路线掀翻了。
这一篇就专门看这组实验结果本身。不是再讲结构,也不是再讲训练配方,而是回答:这些数字为什么足以让整个领域改道。
一、先看 headline numbers:论文到底赢在哪里
原论文摘要直接给出了两句最重要的话:
- 在 WMT14 英译德上达到 28.4 BLEU,比当时已有最好结果(包括 ensemble)还高出 2 分以上;
- 在 WMT14 英译法上,单模型达到 41.8 BLEU,训练 3.5 天,只用了文献中最佳系统一小部分训练成本。
为了把数字放回语境,先看一张最精简的结果表:
| 任务 | 模型 | 结果 | 论文里的意义 |
|---|---|---|---|
| WMT14 En-De | Transformer base | 27.3 BLEU | 已经达到很强水平 |
| WMT14 En-De | Transformer big | 28.4 BLEU | 超过当时已有最优结果 |
| WMT14 En-Fr | Transformer base | 38.1 BLEU | 单模型就很强 |
| WMT14 En-Fr | Transformer big | 41.8 BLEU | 新的单模型 SOTA |
1.1 为什么是 WMT14,为什么是 BLEU
因为这是当时机器翻译最有公信力的一组 benchmark。WMT 的对比链条很长,前几年最强的系统——GNMT、ConvS2S、ByteNet——都在这里打过榜。换句话说,Transformer 不是在一个没人关心的小任务上“刷出来”,而是在一个大家都认可的硬仗里赢的。
BLEU 今天已经不是唯一指标,甚至有不少缺点;但在 2017 年,它就是机器翻译论文最通用的公共货币。你想证明自己更好,先把 BLEU 打上去再说。
1.2 28.4 这个数字为什么够震撼
今天看 28.4 这个数字本身,不算夸张;问题是它打败的是一整代“RNN/CNN 做序列建模”的工程共识。
在那之前,主流直觉是这样的:
- 机器翻译一定要有 recurrence,至少 decoder 要一步一步读历史;
- 或者至少要有 convolution,靠局部感受野逐层扩张;
- attention 是辅助模块,不是主干。
Transformer 用实验结果直接把这个判断推翻了:attention 不只是能辅助,它本身就能成为主干,而且还能更快。
二、质量提升不是唯一故事,训练成本才是更狠的一刀
如果论文只是 BLEU 高一点点,社区未必会立刻改道。真正让人难以忽视的,是它同时把训练成本也打下来了。
2.1 8 张 P100、12 小时 / 3.5 天,在当时是什么概念
2017 年的 8 张 P100 不是玩具配置,但也远不到今天那种超大规模训练的夸张程度。原论文给出的训练时长是:
- base:约 12 小时;
- big:约 3.5 天。
对应的结论不是“训练很便宜”,而是更精确的一句:
在当时公认困难的翻译任务上,它的 wall-clock 训练效率明显优于前一代强模型。
这点极其关键。学术界和工业界真正愿意迁移路线,往往不是因为新模型“理论更优雅”,而是因为:
- 结果更好;
- 训练更快;
- 工程更容易并行。
Transformer 三件事一起满足。
2.2 它赢的不只是 FLOPs,而是并行性
前面我们讲过,RNN 的根本问题不是“单步算得慢”,而是时间维度上的串行依赖太硬。你有再多 GPU,也没法把同一个序列的所有时间步同时算出来。
Transformer 训练时则可以把一个 batch 里的全部位置一起并行算。于是:
- GPU 利用率更高;
- batch by tokens 更自然;
- 同样 wall-clock 时间里,能吃进更多训练样本。
换句话说,它真正打败前代模型的地方,不只是数学结构,而是“更适合现代硬件”。这也是为什么它后来会一路扩展到超大模型,而不是停在机器翻译这个小圈子里。
三、base 到 big:原论文已经把“规模有效”这件事露出来了
原论文里最值得回头重看的,不只是 base 和 big 两个数字本身,而是它们之间的关系。
3.1 从 base 到 big,不只是参数更多
big 模型相对 base 主要做了几件事:
- \(d_{\text{model}}\) 从 512 提到 1024;
- 头数从 8 提到 16;
- FFN 宽度从 2048 提到 4096;
- dropout 也做了相应调整。
结果是:
- En-De:27.3 → 28.4
- En-Fr:38.1 → 41.8
这已经非常明确地说明:Transformer 的能力不是很快饱和,而是会随着宽度和容量继续涨。
今天我们用“scaling”这套语言去描述它,但在 2017 年,这其实已经是个早期信号:attention 主干不是一个只在小模型上偶然奏效的 trick,它是能随规模继续受益的骨架。
3.2 这也是后来 GPT / BERT 爆发的前提
如果 Transformer 只在 65M 左右的 base 模型上好用,放大就崩,那后面也不会有 BERT-large、GPT-3、LLaMA 这条路。原论文的 big 结果虽然规模还很小,但已经让人看到:
- 结构是稳定的;
- 训练配方是可扩展的;
- 模型容量增加后,性能还会继续涨。
这正是一个“能长成平台级架构”的必要条件。
四、注意力可视化到底说明了什么
原论文还有一个经常被引用的亮点:注意力权重图。很多人第一次看会很兴奋,因为它看起来像“模型终于可以解释自己在看什么了”。
4.1 它至少说明了模型学到了有结构的对齐
论文里的可视化展示出几种非常有说服力的现象:
- 某些头会稳定关注前一个或后一个位置;
- 某些头会学到长距离依赖;
- 在翻译场景里,decoder 的 cross-attention 会对齐到源句里最相关的词。
这至少说明一件事:attention 不是随机噪声,它确实学到了结构化模式。
4.2 但它不是“完整解释”
要小心一点。attention 图能告诉你“某个 head 在当前层、当前位置把权重放到了哪里”,但它不能单独说明:
- 最终输出为什么一定由这几个位置决定;
- FFN 和 residual stream 在后续层又做了什么;
- 某个高权重位置是不是只是把信息搬运过来,而不是直接决定答案。
所以比较准确的说法是:注意力可视化是局部可解释线索,不是完整因果解释。
这个话题我们在第 52、53 篇还会回来。
五、复杂度表和实验结果合起来,才是完整胜利
原论文里还有一张经常被一起引用的表:不同层类型在每层的计算复杂度、顺序操作数、最大路径长度。
5.1 这张表本身不是 benchmark,但解释了 benchmark 为什么会那样
它告诉你:
- self-attention 对序列位置之间的最大路径长度是常数级;
- RNN 需要顺序传播;
- 卷积虽然能并行,但远距离依赖需要更多层或更大感受野。
这张复杂度表和 WMT 结果放在一起,组合出的结论才真正完整:
- Transformer 在理论上更适合建模长距离关系;
- 它在硬件上更适合并行;
- 它在真实 benchmark 上真的赢了。
缺一不可。只有复杂度表,没有结果,就是一套漂亮分析;只有结果,没有复杂度表,别人会怀疑是不是配方偶然调对。两者合在一起,才有“路线替代”的说服力。
六、原论文有没有做充分消融
以今天的标准看,2017 年这篇论文的消融并不算特别奢华。它没有今天那种几百组 ablation、几十张图的规模。但它做了足够关键的几类比较:
6.1 不同模型大小
base 和 big 两档已经足以证明结构不是小模型偶然奏效。
6.2 不同任务规模
En-De 和 En-Fr 数据规模差很多,Transformer 在两边都成立,说明它不是只在某个特定数据量上碰巧 work。
6.3 不同结构直觉的间接比较
虽然不是用“把某个模块拿掉”的现代消融方式,但它通过和 RNN / CNN SOTA 的直接对比,已经回答了最重要的问题:完全抛弃 recurrence 和 convolution 之后,结果会不会变差?答案是不但没变差,还更好。
对一篇开宗立派的论文来说,这种“路线级别的消融”比局部微调更重要。
七、这些结果今天还该怎么读
2017 年的胜利很大,但不能把它误读成“论文里的每个数字、每个结论今天都原样成立”。
7.1 仍然成立的部分
今天仍然成立的核心有三条:
- attention 可以作为主干,而不是辅助;
- 并行性会深刻改变可训练规模;
- 结构、硬件友好性、训练目标三者必须一起看。
这三条后来在 GPT、BERT、T5、LLaMA 身上都被反复验证。
7.2 已经发生变化的部分
但也有很多内容属于 2017 时代限定:
- BLEU 不再是生成任务唯一指标;
- 6 层 / 8 头 / 512 维这些具体配置早已不是主流;
- post-LN 让位给了 pre-LN;
- 机器翻译不再是 Transformer 的唯一主战场。
所以今天读原论文实验结果,最有价值的不是死记数字,而是记住那次胜利的形状:
一个结构优势明确、硬件友好、实验结果过硬的新架构,如何在一个成熟 benchmark 上把旧范式整体替掉。
八、几个常见误解
8.1 “28.4 BLEU 在今天看不高,所以论文被神化了”
错。评价 2017 年的论文,要放回 2017 年的基线和硬件条件。它赢的是当时整条最强路线,不是和今天的超大模型比绝对值。
8.2 “Transformer 成功只是因为参数更多”
也不对。big 模型确实更大,但真正决定胜负的是结构的并行性和长依赖建模方式。否则同规模 RNN/CNN 早就该赢回来。
8.3 “注意力可视化证明了 attention 就是解释”
不能这么说。它只是说明模型学到了可见的结构模式,不等于完整因果解释。
8.4 “原论文结果一出来,RNN 就立刻完全死了”
实际上没有这么瞬间。很多任务和工业系统还沿用了 RNN、CNN 一段时间。但从研究主航道看,Transformer 从这篇开始已经赢下了方向之争。
九、结语
原论文实验结果真正重要的,不是它给出了一串后来会被新模型继续刷新的数字,而是它第一次把一个全 attention 主干架构,放到最有公信力的翻译 benchmark 上,证明了三件事可以同时成立:质量更高、训练更快、并行性更强。28.4 BLEU 只是最醒目的那个符号,背后真正改变世界的是那组数字共同指向的结论:序列建模不再必须围着 recurrence 转。
到这里,原论文精读的主体就差不多收束了。下一篇开始我们会从 2017 年翻到现代大模型训练范式,先从一个经常被初学者低估、但几乎决定整个数据入口的环节讲起:tokenization 为什么既不是按字切,也不是按词切。
十、参考文献
- Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017. 原始实验结果、训练成本与注意力可视化。
- Wu, Y. et al. “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.” arXiv:1609.08144, 2016. Transformer 前最重要的强基线之一。
- Gehring, J. et al. “Convolutional Sequence to Sequence Learning.” ICML 2017. Transformer 同时代最强的卷积式 MT 路线之一。
- Kalchbrenner, N. et al. “Neural Machine Translation in Linear Time.” arXiv:1610.10099, 2016. ByteNet 路线的代表。
- Post, M. “A Call for Clarity in Reporting BLEU Scores.” WMT 2018. 说明今天回看 BLEU 数字时为何必须注意评测口径。
← 上一篇:27|训练原论文 Transformer | 下一篇:29|Tokenization →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。
【Transformer 与注意力机制】41|位置编码演进:Sinusoidal → Learned → RoPE → ALiBi
Transformer 本身没有递归和卷积,如果不注入位置信息,它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi,解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”,以及长上下文为什么让位置外推变成核心问题。