switch-transformer 标签归档

共 2 篇文章 · 返回首页

【Transformer 与注意力机制】44|MoE:稀疏激活的万亿模型路径

MoE 的关键不是把很多模型简单拼成 ensemble,而是让每个 token 通过 router 只激活少数专家,从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN,Switch Transformer、GShard、Mixtral 代表什么,以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。