【GPU 算子工程】量化与多精度算子:INT8 / FP8、反量化与 per-channel
低精度既省显存带宽又提算力。实测 FP16 逐元素算子比 FP32 快 1.81 倍。讲清量化的对称/非对称、per-tensor/per-channel 粒度、反量化时机、INT8 dp4a 与 Tensor Core 路径,以及精度对齐的工程坑。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 3 篇文章 · 返回首页
低精度既省显存带宽又提算力。实测 FP16 逐元素算子比 FP32 快 1.81 倍。讲清量化的对称/非对称、per-tensor/per-channel 粒度、反量化时机、INT8 dp4a 与 Tensor Core 路径,以及精度对齐的工程坑。
从数据类型、PTQ/QAT 算法、KV Cache 量化到 H100/B200/MI300/昇腾硬件支持,覆盖 AutoAWQ、GPTQ、SmoothQuant、BitNet 与 vLLM/TensorRT-LLM/llama.cpp 工程落地
大模型部署的瓶颈不只有参数量,还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么:量化降低数值精度,蒸馏把大模型行为迁移到小模型,剪枝移除不重要结构;并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。