resnet 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】24｜残差连接：为什么深层网络必须留一条直路

2026-04-15 | transformer | #transformer #residual #resnet #pre-norm #optimization

从 ResNet 的核心思想出发，讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法，而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么现代大模型会讨论 residual scaling，以及 residual stream 为什么会成为理解大模型机制时的重要观察对象。