【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路
从 ResNet 的核心思想出发,讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法,而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么现代大模型会讨论 residual scaling,以及 residual stream 为什么会成为理解大模型机制时的重要观察对象。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 8 篇文章 · 返回首页
从 ResNet 的核心思想出发,讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法,而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么现代大模型会讨论 residual scaling,以及 residual stream 为什么会成为理解大模型机制时的重要观察对象。
从公式到工程把 LayerNorm 讲清楚:它在每个 token 内部如何做归一化,为什么比 BatchNorm 更适合变长序列和自回归训练,post-LN 与 pre-LN 对梯度路径有什么影响,RMSNorm 又为什么会在现代大模型里大量替代标准 LN。
把信号变成头寸,是组合构建(portfolio construction)的核心工程。本文从 Markowitz 的均值方差出发,串到 Ledoit-Wolf 收缩、风险平价、HRP、Black-Litterman、Kelly 与凸优化求解,给出 cvxpy 可运行实现,并讨论稳健性、上线漂移与风险预算。
TLS 握手的性能开销是 HTTPS 服务的隐性成本。本文从会话恢复(Session Ticket、PSK Resumption)、OCSP Stapling、AES-NI 硬件加速三个维度剖析 TLS 性能优化的工程实践,给出 Nginx/OpenSSL 的完整配置方案与基准测试方法论。
深入探讨正则表达式回溯导致的性能问题,拆解 ReDoS 攻击原理、防御策略与真实排查案例。
SSA 是现代编译器 IR 的核心表示形式。从支配树到 φ 函数,理解 SSA 的构造和优化是深入编译器的必经之路。
现代 CPU 的分支预测器已经非常精准,但当预测失败时代价高昂。无分支编程用算术和位运算消除条件跳转,在特定场景下带来数倍加速。
Amdahl 定律详解:并行计算性能提升的理论极限与实践指导