optimizer 标签归档

【Transformer 与注意力机制】06｜梯度下降与反向传播

2026-04-15 | transformer | #gradient-descent #backpropagation #optimizer #adam #transformer

神经网络真正会「学习」靠的是两件事：把误差变成可微分的损失函数，再沿着这个损失对参数的梯度方向一点点往下挪。本文从一维抛物线讲到多变量梯度，从两层网络的手算反向传播讲到为什么 backprop 是 O(参数量)，再到 Transformer 为什么几乎一律选 Adam/AdamW，希望把「网络是怎么学的」这件事彻底讲透。

【MySQL InnoDB 内核】Optimizer 与 Handler：ICP、MRR 与存储引擎边界

【Transformer 与注意力机制】06｜梯度下降与反向传播