【Transformer 与注意力机制】28|原论文实验结果:为什么 28.4 BLEU 足以改写路线图
把《Attention Is All You Need》的实验结果拆开看:WMT14 英德与英法任务上的 headline number 到底意味着什么,为什么 8 张 P100、3.5 天训练就足以压过当时最强的 RNN 与 CNN 路线,注意力可视化又真实说明了什么,哪些地方是结论,哪些地方只是 2017 年特定 benchmark 下的胜利。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
把《Attention Is All You Need》的实验结果拆开看:WMT14 英德与英法任务上的 headline number 到底意味着什么,为什么 8 张 P100、3.5 天训练就足以压过当时最强的 RNN 与 CNN 路线,注意力可视化又真实说明了什么,哪些地方是结论,哪些地方只是 2017 年特定 benchmark 下的胜利。