l2-cache 标签归档 | 土法炼钢兴趣小组的算法知识备份

【GPU 算子工程】内存层次：global / L2 / shared / register 的带宽与延迟

拆开 GPU 的存储金字塔：寄存器、shared memory、L1/L2、global memory 的容量、带宽与延迟量级。用实测展示 L2 命中（约 3.4 TB/s）与 DRAM（约 400 GB/s）相差近一个数量级，解释为什么数据放哪决定算子性能。