【GPU 算子工程】Kernel Fusion 与 epilogue:减少 HBM 往返
融合通过减少中间结果的 HBM 往返提速 memory-bound 算子。实测逐元素链融合的加速比随链长线性增长(k=16 时 16.8 倍)。讲清逐元素融合、归约融合、GEMM epilogue 融合,以及什么时候不该融合。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
融合通过减少中间结果的 HBM 往返提速 memory-bound 算子。实测逐元素链融合的加速比随链长线性增长(k=16 时 16.8 倍)。讲清逐元素融合、归约融合、GEMM epilogue 融合,以及什么时候不该融合。
从三阶段编译器局限出发,串联 Halide、XLA、TVM 的 IR 裂变,说明 DSA 与 AI 编译器为何需要 MLIR 这类可组合的多层 IR 框架。