moe 标签归档

共 4 篇文章 · 返回首页

【Transformer 与注意力机制】26|前馈网络:那个看似平平无奇的两层 MLP,其实是「记忆」所在

把 Transformer block 里那个看起来最不起眼的两层 MLP 真正讲清楚——4 倍扩张比的来历、逐位置而不是跨位置的设计、Geva 等人 2021 年提出的「键值记忆」视角、SwiGLU/GLU/GeGLU 的现代变体、参数量分布、可解释性研究、量化时的瓶颈,以及它和 MoE 的关系。

【Transformer 与注意力机制】44|MoE:稀疏激活的万亿模型路径

MoE 的关键不是把很多模型简单拼成 ensemble,而是让每个 token 通过 router 只激活少数专家,从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN,Switch Transformer、GShard、Mixtral 代表什么,以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。