thread-hierarchy 标签归档 | 土法炼钢兴趣小组的算法知识备份

【GPU 算子工程】GPU 执行模型：SM、warp、线程层次与 occupancy

讲清 grid/block/warp 如何映射到 SM，SIMT 执行与 32 线程 warp 的本质，分支发散为何昂贵（实测 1.7 倍），以及 occupancy 的含义。建立一切 GPU 性能优化的硬件直觉。