fp16 标签归档 | 土法炼钢兴趣小组的算法知识备份

fp16 标签归档

共 2 篇文章 · 返回首页

【GPU 算子工程】Tensor Core 与 MMA：wmma、mma.sync 与数据布局

2026-06-28 | gpu · architecture | #cuda #tensor-core #wmma #mma #mma-sync #fp16 #bf16 #tf32 #hmma

Tensor Core 把矩阵乘做进专用硬件。实测 RTX 3060 Ti 的 FP16 Tensor 吞吐达 72.8 TFLOP/s，约 FP32 峰值的 4.5 倍。讲清 MMA 指令、wmma fragment API、数据布局与精度要求，以及为什么喂数据才是真正的瓶颈。

【GPU 算子工程】量化与多精度算子：INT8 / FP8、反量化与 per-channel

2026-06-28 | gpu · architecture | #cuda #quantization #int8 #fp8 #fp16 #dequantization #per-channel #dp4a

低精度既省显存带宽又提算力。实测 FP16 逐元素算子比 FP32 快 1.81 倍。讲清量化的对称/非对称、per-tensor/per-channel 粒度、反量化时机、INT8 dp4a 与 Tensor Core 路径，以及精度对齐的工程坑。