attention-is-all-you-need 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】28|原论文实验结果:为什么 28.4 BLEU 足以改写路线图

把《Attention Is All You Need》的实验结果拆开看:WMT14 英德与英法任务上的 headline number 到底意味着什么,为什么 8 张 P100、3.5 天训练就足以压过当时最强的 RNN 与 CNN 路线,注意力可视化又真实说明了什么,哪些地方是结论,哪些地方只是 2017 年特定 benchmark 下的胜利。