xla 标签归档 | 土法炼钢兴趣小组的算法知识备份

xla 标签归档

共 2 篇文章 · 返回首页

【GPU 算子工程】Kernel Fusion 与 epilogue：减少 HBM 往返

2026-06-28 | gpu · architecture | #cuda #kernel-fusion #epilogue #hbm #memory-bound #torch-compile #xla

融合通过减少中间结果的 HBM 往返提速 memory-bound 算子。实测逐元素链融合的加速比随链长线性增长（k=16 时 16.8 倍）。讲清逐元素融合、归约融合、GEMM epilogue 融合，以及什么时候不该融合。

【编译器与 MLIR】编译器的挑战与 IR 的裂变

2026-06-09 | compiler · architecture | #mlir #llvm #compiler #ir #halide #tvm #xla #codegen #domain-specific-architecture

从三阶段编译器局限出发，串联 Halide、XLA、TVM 的 IR 裂变，说明 DSA 与 AI 编译器为何需要 MLIR 这类可组合的多层 IR 框架。