【GPU 算子工程】通信与计算重叠:NCCL collective 与 kernel overlap
多卡训练/推理中,通信不与计算重叠就是纯开销。讲三个层次的重叠:kernel 内 cp.async 异步加载、kernel 间 stream 并发、分布式里 NCCL collective 与反向计算的重叠,以及 SM 资源争抢的代价。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
多卡训练/推理中,通信不与计算重叠就是纯开销。讲三个层次的重叠:kernel 内 cp.async 异步加载、kernel 间 stream 并发、分布式里 NCCL collective 与反向计算的重叠,以及 SM 资源争抢的代价。