dequantization 标签归档 | 土法炼钢兴趣小组的算法知识备份

【GPU 算子工程】量化与多精度算子：INT8 / FP8、反量化与 per-channel

低精度既省显存带宽又提算力。实测 FP16 逐元素算子比 FP32 快 1.81 倍。讲清量化的对称/非对称、per-tensor/per-channel 粒度、反量化时机、INT8 dp4a 与 Tensor Core 路径，以及精度对齐的工程坑。