mma 标签归档 | 土法炼钢兴趣小组的算法知识备份

【GPU 算子工程】Tensor Core 与 MMA：wmma、mma.sync 与数据布局

Tensor Core 把矩阵乘做进专用硬件。实测 RTX 3060 Ti 的 FP16 Tensor 吞吐达 72.8 TFLOP/s，约 FP32 峰值的 4.5 倍。讲清 MMA 指令、wmma fragment API、数据布局与精度要求，以及为什么喂数据才是真正的瓶颈。