triton 标签归档 | 土法炼钢兴趣小组的算法知识备份

【GPU 算子工程】Triton：tile 级编程模型与 autotune

2026-06-28 | gpu · architecture | #cuda #triton #tile #autotune #jit #openai-triton #dsl

Triton 用 tile（block of pointers）抽象替代 CUDA 的单线程视角，把合并访问、shared 管理、bank conflict 交给编译器，配合 autotune 自动搜配置。讲清它的编程模型、与手写 CUDA 的能力边界，以及为什么它成了算子开发主力。

【GPU 算子工程】趋势：TMA、Blackwell、ThunderKittens 与编译器协同

2026-06-28 | gpu · architecture | #cuda #tma #hopper #blackwell #thunderkittens #triton #mlir #fp8 #fp4

算子工程的前沿方向：Hopper 的 TMA 异步搬运与 wgmma、Blackwell 的更低精度、ThunderKittens 等 tile 级库降低门槛、Triton/MLIR 的编译器自动生成算子。本系列测试卡为 Ampere，相关特性为引用与前瞻，明确标注。

GPU 高性能算子工程

2026-06-26 | gpu · architecture | #cuda #gpu #kernel #tensor-core #cutlass #triton #flash-attention #gemm #nsight #roofline #hpc

从 GPU 执行模型与内存层次出发，系统讲解如何写出并调优高性能 CUDA 算子：访存合并、occupancy、Roofline、Nsight 调优，reduction/GEMM/Tensor Core/FlashAttention 核心算子实现，以及 Triton、CUTLASS、kernel fusion 与算子库工程。

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

2026-04-22 | architecture · ai-infra | #llm #infra #cuda #cublas #cudnn #nccl #triton #cutlass #rocm #cann #tensor-engine

从 nvcc 到 Triton，把 NVIDIA 软件栈的每一层拆给大模型工程师看，顺便谈谈 ROCm、CANN 为什么一直追不上。

【大模型基础设施工程】21：推理服务化

2026-04-22 | architecture · ai-infra | #llm #infra #serving #triton #ray-serve #kserve #bentoml #lora #mooncake #pd-disaggregation #serverless-gpu

从单机引擎到生产级集群：Triton、Ray Serve、KServe、vLLM OpenAI Server、PD 分离、LoRA 多租户、KEDA 自动扩缩、Serverless GPU 的全景工程实战。

【编译器与 MLIR】面向异构硬件的代码生成

2026-06-09 | compiler · architecture | #mlir #llvm #compiler #gpu #spir-v #cuda #tiling #memory-hierarchy #iree #triton

解析 MLIR 的 GPU 代码生成框架：GPU 方言的层次化并行模型（Block/Thread/Memory）、gpu.launch 的语义、SPIR-V 出口路径、内存层次抽象与 tiling 策略，以及与 Triton、IREE 的协作关系。