autotune 标签归档 | 土法炼钢兴趣小组的算法知识备份

autotune 标签归档

共 2 篇文章 · 返回首页

【GPU 算子工程】Triton：tile 级编程模型与 autotune

2026-06-28 | gpu · architecture | #cuda #triton #tile #autotune #jit #openai-triton #dsl

Triton 用 tile（block of pointers）抽象替代 CUDA 的单线程视角，把合并访问、shared 管理、bank conflict 交给编译器，配合 autotune 自动搜配置。讲清它的编程模型、与手写 CUDA 的能力边界，以及为什么它成了算子开发主力。

【GPU 算子工程】算子库工程：dispatch、autotune cache 与 JIT

2026-06-28 | gpu · architecture | #cuda #nvrtc #jit #dispatch #autotune #kernel-library #aot

单个 kernel 到可维护算子库的工程问题：按 shape/dtype/arch 选 kernel 的 dispatch、autotune 结果缓存、AOT 与 JIT（NVRTC 运行时编译）的取舍。以本系列实际用的 NVRTC JIT 流程为例。