ascend 标签归档

共 3 篇文章 · 返回首页

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

从 CPU 与 GPU 的架构差异出发，讲清楚 SM、Warp、Tensor Core、HBM、NVLink 的工程含义，并结合 Roofline、FlashAttention 与国产算力栈，给出大模型工程师能直接上手的 GPU 心智模型。

从 NVLink / NVSwitch / NVL72 到 InfiniBand NDR 与 RoCEv2，再到华为 CloudMatrix、阿里 HPN、腾讯星脉，系统梳理万卡集群互联的工程选型与踩坑。

DeepSeek-V4 发布后，如果国产芯片已经支撑旗舰模型的关键训练或推理链路，它会怎样影响 NVIDIA 生态、国产 AI 芯片、云厂商、模型团队和工程师的技术选择？