【Transformer 与注意力机制】44|MoE:稀疏激活的万亿模型路径
MoE 的关键不是把很多模型简单拼成 ensemble,而是让每个 token 通过 router 只激活少数专家,从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN,Switch Transformer、GShard、Mixtral 代表什么,以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
MoE 的关键不是把很多模型简单拼成 ensemble,而是让每个 token 通过 router 只激活少数专家,从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN,Switch Transformer、GShard、Mixtral 代表什么,以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。
混合专家(MoE)模型训练工程实战:从 GShard、Switch、Mixtral 到 DeepSeek-V3,覆盖门控、负载均衡、Expert Parallel、All-to-All 通信与 DeepEP / MegaBlocks 等开源栈