ffn 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】系列总览

2026-04-15 | transformer | #transformer #attention #qkv #multi-head #causal-mask #softmax #ffn #llm #deep-learning #ai

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

2026-04-15 | transformer | #transformer #ffn #mlp #swiglu #moe

把 Transformer block 里那个看起来最不起眼的两层 MLP 真正讲清楚——4 倍扩张比的来历、逐位置而不是跨位置的设计、Geva 等人 2021 年提出的「键值记忆」视角、SwiGLU/GLU/GeGLU 的现代变体、参数量分布、可解释性研究、量化时的瓶颈，以及它和 MoE 的关系。