tiling 标签归档

共 3 篇文章 · 返回首页

【GPU 算子工程】GEMM：从朴素实现到 shared memory tiling 与寄存器分块

GEMM 是 GPU 算子优化的标杆。在 RTX 3060 Ti 上实测四个版本：朴素 990、shared tiling 1309、寄存器分块 64 达 4447、128 达 6375 GFLOP/s（峰值 39%）。讲清每一步优化提高的是什么，以及为什么数据复用是关键。

深入 MLIR 的循环层表示：Affine 方言的仿射约束与依赖分析、与多面体（Polyhedral）模型的联系、SCF 方言的结构化控制流，以及从 affine.for 到 scf.for 的降阶过程。

解析 MLIR 的 GPU 代码生成框架：GPU 方言的层次化并行模型（Block/Thread/Memory）、gpu.launch 的语义、SPIR-V 出口路径、内存层次抽象与 tiling 策略，以及与 Triton、IREE 的协作关系。