backpropagation 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】08.5 神经网络基础：从 MLP 到 RNN 的最后一块地基

2026-05-10 | transformer | #transformer #neural-network #mlp #backpropagation #deep-learning #rnn

用 6 张 matplotlib 图和一个真实可运行的 toy MLP，把神经网络从单神经元、前向传播、损失函数、反向求导、梯度下降、NumPy/PyTorch 实现一路讲到为什么序列任务最终需要 RNN。

【Transformer 与注意力机制】06｜梯度下降与反向传播

2026-04-15 | transformer | #gradient-descent #backpropagation #optimizer #adam #transformer

神经网络真正会「学习」靠的是两件事：把误差变成可微分的损失函数，再沿着这个损失对参数的梯度方向一点点往下挪。本文从一维抛物线讲到多变量梯度，从两层网络的手算反向传播讲到为什么 backprop 是 O(参数量)，再到 Transformer 为什么几乎一律选 Adam/AdamW，希望把「网络是怎么学的」这件事彻底讲透。