【大模型基础设施工程】04:互联与网络——NVLink、InfiniBand、RoCE 与国产替代
从 NVLink / NVSwitch / NVL72 到 InfiniBand NDR 与 RoCEv2,再到华为 CloudMatrix、阿里 HPN、腾讯星脉,系统梳理万卡集群互联的工程选型与踩坑。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
从 NVLink / NVSwitch / NVL72 到 InfiniBand NDR 与 RoCEv2,再到华为 CloudMatrix、阿里 HPN、腾讯星脉,系统梳理万卡集群互联的工程选型与踩坑。
把 RDMA(InfiniBand / RoCEv2 / iWARP)与 CXL(CXL.io / CXL.cache / CXL.mem)放在同一张图上看:前者是节点之间的远程 DMA 网络,后者是节点内 / 机架内的内存语义互联。本文按语义层、物理层、一致性模型、失效模式、工程取舍五个维度拆开两者,给出它们各自适合什么问题。