resnet 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路

从 ResNet 的核心思想出发,讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法,而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么现代大模型会讨论 residual scaling,以及 residual stream 为什么是理解大模型机制的关键对象。