土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】28|原论文实验结果:为什么 28.4 BLEU 足以改写路线图

文章导航

分类入口
transformer
标签入口
#transformer#attention-is-all-you-need#bleu#benchmark#machine-translation

目录

一篇模型论文真正改变领域,不是因为它画了一张新结构图,而是因为它在大家共同承认的任务上赢了。《Attention Is All You Need》也是一样。今天我们回头看它,最容易记住的是“attention 取代 RNN”,但 2017 年真正让整个社区闭嘴的是一组很具体的结果:

这些数字的冲击力,在今天这个千卡训练、万亿 token 的时代很容易被低估。它们当时意味着:一个完全不依赖 recurrence 和 convolution 的新结构,不只是“也能跑”,而是在质量和训练效率上同时把主流路线掀翻了

这一篇就专门看这组实验结果本身。不是再讲结构,也不是再讲训练配方,而是回答:这些数字为什么足以让整个领域改道。


一、先看 headline numbers:论文到底赢在哪里

原论文摘要直接给出了两句最重要的话:

  1. 在 WMT14 英译德上达到 28.4 BLEU,比当时已有最好结果(包括 ensemble)还高出 2 分以上;
  2. 在 WMT14 英译法上,单模型达到 41.8 BLEU,训练 3.5 天,只用了文献中最佳系统一小部分训练成本。

为了把数字放回语境,先看一张最精简的结果表:

任务 模型 结果 论文里的意义
WMT14 En-De Transformer base 27.3 BLEU 已经达到很强水平
WMT14 En-De Transformer big 28.4 BLEU 超过当时已有最优结果
WMT14 En-Fr Transformer base 38.1 BLEU 单模型就很强
WMT14 En-Fr Transformer big 41.8 BLEU 新的单模型 SOTA

1.1 为什么是 WMT14,为什么是 BLEU

因为这是当时机器翻译最有公信力的一组 benchmark。WMT 的对比链条很长,前几年最强的系统——GNMT、ConvS2S、ByteNet——都在这里打过榜。换句话说,Transformer 不是在一个没人关心的小任务上“刷出来”,而是在一个大家都认可的硬仗里赢的。

BLEU 今天已经不是唯一指标,甚至有不少缺点;但在 2017 年,它就是机器翻译论文最通用的公共货币。你想证明自己更好,先把 BLEU 打上去再说。

1.2 28.4 这个数字为什么够震撼

今天看 28.4 这个数字本身,不算夸张;问题是它打败的是一整代“RNN/CNN 做序列建模”的工程共识

在那之前,主流直觉是这样的:

Transformer 用实验结果直接把这个判断推翻了:attention 不只是能辅助,它本身就能成为主干,而且还能更快。


二、质量提升不是唯一故事,训练成本才是更狠的一刀

如果论文只是 BLEU 高一点点,社区未必会立刻改道。真正让人难以忽视的,是它同时把训练成本也打下来了。

训练成本和 BLEU 的关系:Transformer 把质量和时间一起往前推

2.1 8 张 P100、12 小时 / 3.5 天,在当时是什么概念

2017 年的 8 张 P100 不是玩具配置,但也远不到今天那种超大规模训练的夸张程度。原论文给出的训练时长是:

对应的结论不是“训练很便宜”,而是更精确的一句:

在当时公认困难的翻译任务上,它的 wall-clock 训练效率明显优于前一代强模型。

这点极其关键。学术界和工业界真正愿意迁移路线,往往不是因为新模型“理论更优雅”,而是因为:

  1. 结果更好;
  2. 训练更快;
  3. 工程更容易并行。

Transformer 三件事一起满足。

2.2 它赢的不只是 FLOPs,而是并行性

前面我们讲过,RNN 的根本问题不是“单步算得慢”,而是时间维度上的串行依赖太硬。你有再多 GPU,也没法把同一个序列的所有时间步同时算出来。

Transformer 训练时则可以把一个 batch 里的全部位置一起并行算。于是:

换句话说,它真正打败前代模型的地方,不只是数学结构,而是“更适合现代硬件”。这也是为什么它后来会一路扩展到超大模型,而不是停在机器翻译这个小圈子里。


三、base 到 big:原论文已经把“规模有效”这件事露出来了

原论文里最值得回头重看的,不只是 base 和 big 两个数字本身,而是它们之间的关系。

3.1 从 base 到 big,不只是参数更多

big 模型相对 base 主要做了几件事:

结果是:

这已经非常明确地说明:Transformer 的能力不是很快饱和,而是会随着宽度和容量继续涨。

今天我们用“scaling”这套语言去描述它,但在 2017 年,这其实已经是个早期信号:attention 主干不是一个只在小模型上偶然奏效的 trick,它是能随规模继续受益的骨架。

3.2 这也是后来 GPT / BERT 爆发的前提

如果 Transformer 只在 65M 左右的 base 模型上好用,放大就崩,那后面也不会有 BERT-large、GPT-3、LLaMA 这条路。原论文的 big 结果虽然规模还很小,但已经让人看到:

  1. 结构是稳定的;
  2. 训练配方是可扩展的;
  3. 模型容量增加后,性能还会继续涨。

这正是一个“能长成平台级架构”的必要条件。


四、注意力可视化到底说明了什么

原论文还有一个经常被引用的亮点:注意力权重图。很多人第一次看会很兴奋,因为它看起来像“模型终于可以解释自己在看什么了”。

4.1 它至少说明了模型学到了有结构的对齐

论文里的可视化展示出几种非常有说服力的现象:

这至少说明一件事:attention 不是随机噪声,它确实学到了结构化模式。

4.2 但它不是“完整解释”

要小心一点。attention 图能告诉你“某个 head 在当前层、当前位置把权重放到了哪里”,但它不能单独说明:

所以比较准确的说法是:注意力可视化是局部可解释线索,不是完整因果解释。

这个话题我们在第 52、53 篇还会回来。


五、复杂度表和实验结果合起来,才是完整胜利

原论文里还有一张经常被一起引用的表:不同层类型在每层的计算复杂度、顺序操作数、最大路径长度。

5.1 这张表本身不是 benchmark,但解释了 benchmark 为什么会那样

它告诉你:

这张复杂度表和 WMT 结果放在一起,组合出的结论才真正完整:

  1. Transformer 在理论上更适合建模长距离关系;
  2. 它在硬件上更适合并行;
  3. 它在真实 benchmark 上真的赢了。

缺一不可。只有复杂度表,没有结果,就是一套漂亮分析;只有结果,没有复杂度表,别人会怀疑是不是配方偶然调对。两者合在一起,才有“路线替代”的说服力。


六、原论文有没有做充分消融

以今天的标准看,2017 年这篇论文的消融并不算特别奢华。它没有今天那种几百组 ablation、几十张图的规模。但它做了足够关键的几类比较:

6.1 不同模型大小

base 和 big 两档已经足以证明结构不是小模型偶然奏效。

6.2 不同任务规模

En-De 和 En-Fr 数据规模差很多,Transformer 在两边都成立,说明它不是只在某个特定数据量上碰巧 work。

6.3 不同结构直觉的间接比较

虽然不是用“把某个模块拿掉”的现代消融方式,但它通过和 RNN / CNN SOTA 的直接对比,已经回答了最重要的问题:完全抛弃 recurrence 和 convolution 之后,结果会不会变差?答案是不但没变差,还更好。

对一篇开宗立派的论文来说,这种“路线级别的消融”比局部微调更重要。


七、这些结果今天还该怎么读

2017 年的胜利很大,但不能把它误读成“论文里的每个数字、每个结论今天都原样成立”。

7.1 仍然成立的部分

今天仍然成立的核心有三条:

  1. attention 可以作为主干,而不是辅助;
  2. 并行性会深刻改变可训练规模;
  3. 结构、硬件友好性、训练目标三者必须一起看。

这三条后来在 GPT、BERT、T5、LLaMA 身上都被反复验证。

7.2 已经发生变化的部分

但也有很多内容属于 2017 时代限定:

所以今天读原论文实验结果,最有价值的不是死记数字,而是记住那次胜利的形状:

一个结构优势明确、硬件友好、实验结果过硬的新架构,如何在一个成熟 benchmark 上把旧范式整体替掉。


八、几个常见误解

8.1 “28.4 BLEU 在今天看不高,所以论文被神化了”

错。评价 2017 年的论文,要放回 2017 年的基线和硬件条件。它赢的是当时整条最强路线,不是和今天的超大模型比绝对值。

8.2 “Transformer 成功只是因为参数更多”

也不对。big 模型确实更大,但真正决定胜负的是结构的并行性和长依赖建模方式。否则同规模 RNN/CNN 早就该赢回来。

8.3 “注意力可视化证明了 attention 就是解释”

不能这么说。它只是说明模型学到了可见的结构模式,不等于完整因果解释。

8.4 “原论文结果一出来,RNN 就立刻完全死了”

实际上没有这么瞬间。很多任务和工业系统还沿用了 RNN、CNN 一段时间。但从研究主航道看,Transformer 从这篇开始已经赢下了方向之争。


九、结语

原论文实验结果真正重要的,不是它给出了一串后来会被新模型继续刷新的数字,而是它第一次把一个全 attention 主干架构,放到最有公信力的翻译 benchmark 上,证明了三件事可以同时成立:质量更高、训练更快、并行性更强。28.4 BLEU 只是最醒目的那个符号,背后真正改变世界的是那组数字共同指向的结论:序列建模不再必须围着 recurrence 转。

到这里,原论文精读的主体就差不多收束了。下一篇开始我们会从 2017 年翻到现代大模型训练范式,先从一个经常被初学者低估、但几乎决定整个数据入口的环节讲起:tokenization 为什么既不是按字切,也不是按词切。


十、参考文献

  1. Vaswani, A. et al. “Attention Is All You Need.” NeurIPS 2017. 原始实验结果、训练成本与注意力可视化。
  2. Wu, Y. et al. “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.” arXiv:1609.08144, 2016. Transformer 前最重要的强基线之一。
  3. Gehring, J. et al. “Convolutional Sequence to Sequence Learning.” ICML 2017. Transformer 同时代最强的卷积式 MT 路线之一。
  4. Kalchbrenner, N. et al. “Neural Machine Translation in Linear Time.” arXiv:1610.10099, 2016. ByteNet 路线的代表。
  5. Post, M. “A Call for Clarity in Reporting BLEU Scores.” WMT 2018. 说明今天回看 BLEU 数字时为何必须注意评测口径。

← 上一篇:27|训练原论文 Transformer | 下一篇:29|Tokenization

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-15 · transformer

【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text

T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。


By .