土法炼钢兴趣小组的算法知识备份

这篇文章只比较文本模型里最重要的三类预训练目标：GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义，而是看清它们各自优化什么接口、为什么迁移方式不同，以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。

【Transformer 与注意力机制】28｜原论文实验结果：为什么 28.4 BLEU 足以改写路线图

2026-04-15 | transformer

把《Attention Is All You Need》的实验结果拆开看：WMT14 英德与英法任务上的 headline number 到底意味着什么，为什么 8 张 P100、3.5 天训练就足以压过当时最强的 RNN 与 CNN 路线，注意力可视化又真实说明了什么，哪些地方是结论，哪些地方只是 2017 年特定 benchmark 下的胜利。

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

2026-04-15 | transformer

把 Transformer block 里那个看起来最不起眼的两层 MLP 真正讲清楚——4 倍扩张比的来历、逐位置而不是跨位置的设计、Geva 等人 2021 年提出的「键值记忆」视角、SwiGLU/GLU/GeGLU 的现代变体、参数量分布、可解释性研究、量化时的瓶颈，以及它和 MoE 的关系。

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

2026-04-15 | transformer

把 2017 年 Transformer 原论文的训练配方完整复现一遍——数据集、硬件、优化器、学习率公式、warmup、label smoothing、dropout、batching by tokens、beam search 推理。重点解释那个看起来很神秘的学习率公式 lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5))，以及为什么 warmup_steps=4000 这个魔法常数不能去掉。

【Transformer 与注意力机制】24｜残差连接：为什么深层网络必须留一条直路

2026-04-15 | transformer

从 ResNet 的核心思想出发，讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法，而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么现代大模型会讨论 residual scaling，以及 residual stream 为什么会成为理解大模型机制时的重要观察对象。

【Transformer 与注意力机制】25｜Layer Normalization：为什么 Transformer 用 LN，不用 BN

2026-04-15 | transformer

从公式到工程把 LayerNorm 讲清楚：它在每个 token 内部如何做归一化，为什么比 BatchNorm 更适合变长序列和自回归训练，post-LN 与 pre-LN 对梯度路径有什么影响，RMSNorm 又为什么会在现代大模型里大量替代标准 LN。

【系统架构设计】什么是软件架构：从代码结构到系统决策

2026-04-13 | architecture

软件架构的定义至少有三种主流理解，每种指向不同的关注点。本文对比 Booch、Fowler、Johnson 三家定义，分析架构决策的不可逆性特征，拆解 Krutchten 4+1 视图模型，回答一个核心问题：架构和设计的边界到底在哪里。

【系统架构设计】架构质量属性：不只是"高可用高性能"

2026-04-13 | architecture

需求评审时写下的'高可用、高性能、高并发'，到了架构设计阶段几乎无法落地——因为它们不是可执行的需求。本文从 SEI/CMU 的质量属性理论出发，用 stimulus-response 场景模型把模糊需求变成可量化、可验证的架构约束，并拆解属性之间的冲突与联动关系。

【系统架构设计】架构决策与 ADR：如何做出可追溯的技术决策

2026-04-13 | architecture

口头约定的架构决策会在人员流动中丢失，会在争论中反复翻车。ADR（Architecture Decision Records）用一种轻量的文档格式，把每一个关键技术决策的背景、选项、理由和代价写下来，跟着代码一起版本管理。本文从 ADR 的三种主流格式讲到 Git 仓库中的实操管理，再拆解 Spotify 和 Uber 的工业实践。

【系统架构设计】架构评估：ATAM 与 trade-off 分析实战

2026-04-13 | architecture

架构评审最怕'感觉还行'。本文完整拆解 ATAM 方法的三阶段九步骤流程，从质量属性效用树的构建、敏感点与权衡点的识别，到风险主题的归纳，用一个电商平台案例走完全过程。同时给出 ATAM 太重时的轻量替代方案。

【系统架构设计】复杂性管理：架构的核心战场

2026-04-13 | architecture

系统复杂性是架构腐化的根源——本文从 Brooks 的本质复杂性与偶然复杂性划分出发，结合认知负荷理论与 Parnas 的信息隐藏原则，系统阐述复杂性的来源、度量与控制手段，并给出可操作的架构策略

【系统架构设计】架构视图与文档：C4 模型从入门到实战

2026-04-13 | architecture

架构图画完三个月就过期，架构文档写完没人看。问题不在于画不画，而在于用什么模型画、用什么方式维护。本文从 C4 模型的四层视图出发，拆解 diagram-as-code 工具链和文档即代码的工程实践，给出一套让架构文档能活下来的方法。

查看所有 1123 篇文章 →

土法炼钢兴趣小组的算法知识备份

从这里开始

先看排序专题，再决定从哪篇切入

从 PQC 起步，快速进入密码学热点

先看系列总览，再按性能与 API 两条线深入

从系列索引进入成熟的事件驱动网络库

热门专题

排序算法

密码学

io_uring

Libevent

最新文章

【大模型基础设施工程·特别篇】DeepSeek-V4 与国产芯片：从备份路线到主路径

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

大模型基础设施工程

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

【Transformer 与注意力机制】28｜原论文实验结果：为什么 28.4 BLEU 足以改写路线图

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

【Transformer 与注意力机制】24｜残差连接：为什么深层网络必须留一条直路

【Transformer 与注意力机制】25｜Layer Normalization：为什么 Transformer 用 LN，不用 BN

【系统架构设计】什么是软件架构：从代码结构到系统决策

【系统架构设计】架构质量属性：不只是"高可用高性能"

【系统架构设计】架构决策与 ADR：如何做出可追溯的技术决策

【系统架构设计】架构评估：ATAM 与 trade-off 分析实战

【系统架构设计】复杂性管理：架构的核心战场

【系统架构设计】架构视图与文档：C4 模型从入门到实战