quantization 标签归档

共 3 篇文章 · 返回首页

【GPU 算子工程】量化与多精度算子：INT8 / FP8、反量化与 per-channel

低精度既省显存带宽又提算力。实测 FP16 逐元素算子比 FP32 快 1.81 倍。讲清量化的对称/非对称、per-tensor/per-channel 粒度、反量化时机、INT8 dp4a 与 Tensor Core 路径，以及精度对齐的工程坑。

从数据类型、PTQ/QAT 算法、KV Cache 量化到 H100/B200/MI300/昇腾硬件支持，覆盖 AutoAWQ、GPTQ、SmoothQuant、BitNet 与 vLLM/TensorRT-LLM/llama.cpp 工程落地

大模型部署的瓶颈不只有参数量，还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么：量化降低数值精度，蒸馏把大模型行为迁移到小模型，剪枝移除不重要结构；并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。