switch-transformer 标签归档 | 土法炼钢兴趣小组的算法知识备份

【大模型基础设施工程】08：MoE 训练工程

2026-04-22 | architecture · ai-infra | #llm #infra #moe #mixture-of-experts #gshard #switch-transformer #mixtral #deepseek #deepep #megablocks #expert-parallel

混合专家（MoE）模型训练工程实战：从 GShard、Switch、Mixtral 到 DeepSeek-V3，覆盖门控、负载均衡、Expert Parallel、All-to-All 通信与 DeepEP / MegaBlocks 等开源栈

【Transformer 与注意力机制】44｜MoE：稀疏激活的万亿模型路径

2026-04-15 | transformer | #transformer #moe #mixture-of-experts #sparse-activation #switch-transformer

MoE 的关键不是把很多模型简单拼成 ensemble，而是让每个 token 通过 router 只激活少数专家，从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN，Switch Transformer、GShard、Mixtral 代表什么，以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。