warmup 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

2026-04-15 | transformer | #transformer #training #learning-rate #warmup #label-smoothing #adam

把 2017 年 Transformer 原论文的训练配方完整复现一遍——数据集、硬件、优化器、学习率公式、warmup、label smoothing、dropout、batching by tokens、beam search 推理。重点解释那个看起来很神秘的学习率公式 lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5))，以及为什么 warmup_steps=4000 这个魔法常数不能去掉。