adam 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

2026-04-15 | transformer | #transformer #training #learning-rate #warmup #label-smoothing #adam

把 2017 年 Transformer 原论文的训练配方完整复现一遍——数据集、硬件、优化器、学习率公式、warmup、label smoothing、dropout、batching by tokens、beam search 推理。重点解释那个看起来很神秘的学习率公式 lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5))，以及为什么 warmup_steps=4000 这个魔法常数不能去掉。

【Transformer 与注意力机制】06｜梯度下降与反向传播

2026-04-15 | transformer | #gradient-descent #backpropagation #optimizer #adam #transformer

神经网络真正会「学习」靠的是两件事：把误差变成可微分的损失函数，再沿着这个损失对参数的梯度方向一点点往下挪。本文从一维抛物线讲到多变量梯度，从两层网络的手算反向传播讲到为什么 backprop 是 O(参数量)，再到 Transformer 为什么几乎一律选 Adam/AdamW，希望把「网络是怎么学的」这件事彻底讲透。