moe 标签归档

共 4 篇文章 · 返回首页

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

2026-05-27 | architecture · ai-infra | #llm #infra #deepseek #moe #long-context #kv-cache #fp4 #muon #agent

从 MoE 激活比、CSA/HCA 混合注意力、mHC、Muon，到磁盘级 KV cache、FP4 QAT 和专家蒸馏，系统拆解 DeepSeek-V4 为什么能把 1M 上下文和强 Agent 能力做得又强又便宜。

【Transformer 与注意力机制】26｜前馈网络：那个看似平平无奇的两层 MLP，其实是「记忆」所在

2026-04-15 | transformer | #transformer #ffn #mlp #swiglu #moe

把 Transformer block 里那个看起来最不起眼的两层 MLP 真正讲清楚——4 倍扩张比的来历、逐位置而不是跨位置的设计、Geva 等人 2021 年提出的「键值记忆」视角、SwiGLU/GLU/GeGLU 的现代变体、参数量分布、可解释性研究、量化时的瓶颈，以及它和 MoE 的关系。

【Transformer 与注意力机制】44｜MoE：稀疏激活的万亿模型路径

2026-04-15 | transformer | #transformer #moe #mixture-of-experts #sparse-activation #switch-transformer

MoE 的关键不是把很多模型简单拼成 ensemble，而是让每个 token 通过 router 只激活少数专家，从而把总参数量和每 token 计算量部分解耦。本文解释 Transformer 里的 MoE 为什么常替换 FFN，Switch Transformer、GShard、Mixtral 代表什么，以及负载均衡、容量因子、专家塌缩和通信成本为什么是 MoE 的核心难题。

【大模型基础设施工程】08：MoE 训练工程

2026-04-22 | architecture · ai-infra | #llm #infra #moe #mixture-of-experts #gshard #switch-transformer #mixtral #deepseek #deepep #megablocks #expert-parallel

混合专家（MoE）模型训练工程实战：从 GShard、Switch、Mixtral 到 DeepSeek-V3，覆盖门控、负载均衡、Expert Parallel、All-to-All 通信与 DeepEP / MegaBlocks 等开源栈