【Transformer 与注意力机制】28｜原论文实验结果：为什么 28.4 BLEU 足以改写路线图

一篇模型论文真正改变领域，不是因为它画了一张新结构图，而是因为它在大家共同承认的任务上赢了。《Attention Is All You Need》也是一样。今天我们回头看它，最容易记住的是“attention 取代 RNN”，但 2017 年真正让整个社区很难再把这条路线当成旁门尝试的，是一组很具体的结果：

WMT14 English-to-German：28.4 BLEU
WMT14 English-to-French：41.8 BLEU
训练硬件：8 张 P100
训练时长：base 约 12 小时，big 约 3.5 天

这些数字的冲击力，在今天这个千卡训练、万亿 token 的时代很容易被低估。它们当时意味着：一个完全不依赖 recurrence 和 convolution 的新结构，不只是“也能跑”，而是在质量和训练效率上同时压过了主流路线。

这里先加一个今天回看原论文时必须带着的括号：文中这些 BLEU 数字沿用的是 2017 年论文自己的评测口径，适合和同一时期文献横向比较；它们不能和后来常见的 SacreBLEU 复现实验数字直接硬比。

这一篇就专门看这组实验结果本身。不是再讲结构，也不是再讲训练配方，而是回答：这些数字为什么足以让整个领域改道。

一、先看 headline numbers：论文到底赢在哪里

原论文摘要直接给出了两句最重要的话：

在 WMT14 英译德上达到 28.4 BLEU，比当时已有最好结果（包括 ensemble）还高出 2 分以上；
在 WMT14 英译法上，单模型达到 41.8 BLEU，训练 3.5 天，只用了文献中最佳系统一小部分训练成本。

为了把数字放回语境，先看一张带对照的结果表。前 3 行是原论文 Table 2 里能直接对齐的公开强基线，最后 1 行是同论文内部的 base/big 对照；目的不是复刻完整榜单，而是看清它到底赢在什么地方：

任务	对照系统	BLEU	Transformer	BLEU	分差	论文里的意义
WMT14 En-De	GNMT	24.6	Transformer big	28.4	+3.8	相对前代强 RNN 基线是整档提升
WMT14 En-De	ConvS2S	25.16	Transformer big	28.4	+3.24	对并行化 CNN 路线也赢得很明确
WMT14 En-Fr	ConvS2S	40.46	Transformer big	41.8	+1.34	新的单模型 SOTA
WMT14 En-Fr	Transformer base	38.1	Transformer big	41.8	+3.7	说明容量放大后收益仍然明显

摘要里还有一句经常被单独引用：在 En-De 上，它比当时已有最好结果（包括 ensemble）还高出 2 BLEU 以上。上表没有把整个文献榜单都摊开，而是只保留最能说明“路线替代”这件事的几个锚点。

1.1 为什么是 WMT14，为什么是 BLEU

因为这是当时机器翻译最有公信力的一组 benchmark。WMT 的对比链条很长，前几年最强的系统——GNMT、ConvS2S、ByteNet——都在这里打过榜。换句话说，Transformer 不是在一个没人关心的小任务上“刷出来”，而是在一个大家都认可的硬仗里赢的。

BLEU 今天已经不是唯一指标，甚至有不少缺点；但在 2017 年，它就是机器翻译论文最通用的公共货币。你想证明自己更好，先把 BLEU 打上去再说。只是这里也要记住：同样叫 BLEU，不同论文的分词、去标点和评测脚本口径可能并不完全一致，所以最稳妥的读法始终是“先和同一时代、同一口径的系统比”。

1.2 28.4 这个数字为什么够震撼

今天看 28.4 这个数字本身，不算夸张；问题是它打败的是一整代“RNN/CNN 做序列建模”的工程共识。

在那之前，主流直觉是这样的：

机器翻译一定要有 recurrence，至少 decoder 要一步一步读历史；
或者至少要有 convolution，靠局部感受野逐层扩张；
attention 是辅助模块，不是主干。

Transformer 用实验结果直接把这个判断推翻了：attention 不只是能辅助，它本身就能成为主干，而且还能更快。

二、质量提升不是唯一故事，训练成本才是更狠的一刀

如果论文只是 BLEU 高一点点，社区未必会立刻改道。真正让人难以忽视的，是它同时把训练成本也打下来了。

2.1 8 张 P100、12 小时 / 3.5 天，在当时是什么概念

2017 年的 8 张 P100 不是玩具配置，但也远不到今天那种超大规模训练的夸张程度。原论文给出的训练时长是：

base：约 12 小时；
big：约 3.5 天。

对应的结论不是“训练很便宜”，而是更精确的一句：

在当时公认困难的翻译任务上，它的 wall-clock 训练效率明显优于前一代强模型。

这点极其关键。学术界和工业界真正愿意迁移路线，往往不是因为新模型“理论更优雅”，而是因为：

结果更好；
训练更快；
工程更容易并行。

Transformer 三件事一起满足。

2.2 它赢的不只是 FLOPs，而是并行性

前面我们讲过，RNN 的根本问题不是“单步算得慢”，而是时间维度上的串行依赖太硬。你有再多 GPU，也没法把同一个序列的所有时间步同时算出来。

Transformer 训练时则可以把一个 batch 里的全部位置一起并行算。于是：

GPU 利用率更高；
batch by tokens 更自然；
同样 wall-clock 时间里，能吃进更多训练样本。

换句话说，它真正打败前代模型的地方，不只是数学结构，而是“更适合现代硬件”。这也是为什么它后来会一路扩展到超大模型，而不是停在机器翻译这个小圈子里。

三、base 到 big：原论文已经把“规模有效”这件事露出来了

原论文里最值得回头重看的，不只是 base 和 big 两个数字本身，而是它们之间的关系。

3.1 从 base 到 big，不只是参数更多

big 模型相对 base 主要做了几件事：

\(d_{\text{model}}\) 从 512 提到 1024；
头数从 8 提到 16；
FFN 宽度从 2048 提到 4096；
dropout 也做了相应调整。

结果是：

En-De：27.3 → 28.4
En-Fr：38.1 → 41.8

这已经非常明确地说明：Transformer 的能力不是很快饱和，而是会随着宽度和容量继续涨。

今天我们用“scaling”这套语言去描述它，但在 2017 年，这其实已经是个早期信号：attention 主干不是一个只在小模型上偶然奏效的 trick，它是能随规模继续受益的骨架。

3.2 这至少说明这套骨架值得继续放大

如果 Transformer 只在 65M 左右的 base 模型上好用，放大后收益立刻消失或者训练变得极不稳定，那后面这条路线不会这么快成为研究主航道。原论文的 big 结果虽然规模还很小，但已经让人看到：

结构是稳定的；
训练配方是可扩展的；
模型容量增加后，性能还会继续涨。

这至少是一个“值得继续放大和复用”的骨架应当具备的条件。至于后来 GPT、BERT、T5 把它推成平台级架构，那是后续几年更多工作共同完成的事。

四、注意力可视化到底说明了什么

原论文还有一个经常被引用的亮点：注意力权重图。很多人第一次看会很兴奋，因为它看起来像“模型终于可以解释自己在看什么了”。

4.1 它至少说明了模型学到了有结构的对齐

论文里的可视化展示出几种非常有说服力的现象：

某些头会稳定关注前一个或后一个位置；
某些头会学到长距离依赖；
在翻译场景里，decoder 的 cross-attention 会对齐到源句里最相关的词。

这至少说明一件事：attention 不是随机噪声，它确实学到了结构化模式。

4.2 但它不是“完整解释”

要小心一点。attention 图能告诉你“某个 head 在当前层、当前位置把权重放到了哪里”，但它不能单独说明：

最终输出为什么一定由这几个位置决定；
FFN 和 residual stream 在后续层又做了什么；
某个高权重位置是不是只是把信息搬运过来，而不是直接决定答案。

所以比较准确的说法是：注意力可视化是局部可解释线索，不是完整因果解释。

这个话题后面讲 attention 可解释性争议时还会回来。

五、复杂度表和实验结果合起来，才是完整胜利

原论文里还有一张经常被一起引用的表：不同层类型在每层的计算复杂度、顺序操作数、最大路径长度。

5.1 这张表本身不是 benchmark，但解释了 benchmark 为什么会那样

它告诉你：

self-attention 对序列位置之间的最大路径长度是常数级；
RNN 需要顺序传播；
卷积虽然能并行，但远距离依赖需要更多层或更大感受野。

这张复杂度表和 WMT 结果放在一起，组合出的结论才真正完整：

Transformer 在理论上更适合建模长距离关系；
它在硬件上更适合并行；
它在真实 benchmark 上真的赢了。

缺一不可。只有复杂度表，没有结果，就是一套漂亮分析；只有结果，没有复杂度表，别人会怀疑是不是配方偶然调对。两者合在一起，才有“路线替代”的说服力。

六、这些结果够不够支持路线替代

以今天的标准看，2017 年这篇论文的 ablation 并不算特别奢华。它没有今天那种几百组实验、几十张图的规模。但如果问题是“这些结果够不够让大家认真对待 attention-only 这条路线”，那它给出的证据已经很关键：

6.1 不同模型大小

base 和 big 两档已经足以证明结构不是小模型偶然奏效。

6.2 不同任务规模

En-De 和 En-Fr 数据规模差很多，Transformer 在两边都成立，说明它不是只在某个特定数据量上碰巧 work。

6.3 不同结构直觉的间接比较

虽然不是用“把某个模块拿掉”的现代消融方式，但它通过和 RNN / CNN SOTA 的直接对比，已经回答了最重要的问题：完全抛弃 recurrence 和 convolution 之后，结果会不会变差？答案是不但没变差，还更好。

对一篇开宗立派的论文来说，这种“路线级别的证据”比局部微调更重要。

七、这些结果今天还该怎么读

2017 年的胜利很大，但不能把它误读成“论文里的每个数字、每个结论今天都原样成立”。

7.1 仍然成立的部分

今天仍然成立的核心有三条：

attention 可以作为主干，而不是辅助；
并行性会深刻改变可训练规模；
结构、硬件友好性、训练目标三者必须一起看。

这三条后来在 GPT、BERT、T5、LLaMA 身上都被反复验证。

7.2 已经发生变化的部分

但也有很多内容属于 2017 时代限定：

BLEU 不再是生成任务唯一指标；
6 层 / 8 头 / 512 维这些具体配置早已不是主流；
post-LN 让位给了 pre-LN；
机器翻译不再是 Transformer 的唯一主战场。

所以今天读原论文实验结果，最有价值的不是死记数字，而是记住那次胜利的形状：

一个结构优势明确、硬件友好、实验结果过硬的新架构，如何在一个成熟 benchmark 上把旧范式整体替掉。

八、几个常见误解

8.1 “28.4 BLEU 在今天看不高，所以论文被神化了”

错。评价 2017 年的论文，要放回 2017 年的基线和硬件条件。它赢的是当时整条最强路线，不是和今天的超大模型比绝对值。

8.2 “Transformer 成功只是因为参数更多”

也不对。big 模型确实更大，但真正决定胜负的是结构的并行性和长依赖建模方式。否则同规模 RNN/CNN 早就该赢回来。

8.3 “注意力可视化证明了 attention 就是解释”

不能这么说。它只是说明模型学到了可见的结构模式，不等于完整因果解释。

8.4 “原论文结果一出来，RNN 就立刻完全死了”

实际上没有这么瞬间。很多任务和工业系统还沿用了 RNN、CNN 一段时间。但从研究主航道看，Transformer 从这篇开始已经明显占了上风。

九、结语

原论文实验结果真正重要的，不是它给出了一串后来会被新模型继续刷新的数字，而是它第一次把一个全 attention 主干架构，放到最有公信力的翻译 benchmark 上，证明了三件事可以同时成立：质量更高、训练更快、并行性更强。28.4 BLEU 只是最醒目的那个符号，背后真正改变世界的是那组数字共同指向的结论：序列建模不再必须围着 recurrence 转。

到这里，原论文精读的主体就差不多收束了。下一篇开始我们会从 2017 年翻到现代大模型训练范式，先从一个经常被初学者低估、但几乎决定整个数据入口的环节讲起：tokenization 为什么既不是按字切，也不是按词切。

十、参考文献

Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017. 原始实验结果、训练成本与注意力可视化。
Wu, Y. et al. “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.” arXiv:1609.08144, 2016. Transformer 前最重要的强基线之一。
Gehring, J. et al. “Convolutional Sequence to Sequence Learning.” ICML 2017. Transformer 同时代最强的卷积式 MT 路线之一。
Kalchbrenner, N. et al. “Neural Machine Translation in Linear Time.” arXiv:1610.10099, 2016. ByteNet 路线的代表。
Post, M. “A Call for Clarity in Reporting BLEU Scores.” WMT 2018. 说明今天回看 BLEU 数字时为何必须注意评测口径。

← 上一篇：27｜训练原论文 Transformer　|　下一篇：29｜Tokenization →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer