系列第 14 篇。上一篇 vLLM / SGLang / TensorRT-LLM / TGI 对比了推理引擎的调度与吞吐,本篇深入推理优化的另一条主轴 —— 量化(Quantization):把模型权重、激活、KV Cache 从 FP16/BF16 压到 FP8、INT8、FP4、INT4,乃至 1.58-bit,换来显存、带宽、成本的数量级收益。
量化是 2023 年以来 LLM 推理侧最显著的工程变量之一。一块 80 GB 的 H100 放不下 Llama-3-70B BF16(140 GB),但 FP8 只要 70 GB、INT4 只要 35 GB,一张卡就能跑起来;生产环境里 decode 是 memory-bound,带宽砍一半,吞吐基本翻一倍。本篇按”为什么 → 数据类型 → 算法 → 粒度 → 硬件 → 引擎 → 实操”的顺序把量化这门”黑艺术”拆开。
一、为什么量化:显存、带宽、成本
1.1 显存账:参数量 × 位宽
对一个参数量为 \(N\) 的模型,权重显存 \(= N \times b / 8\) 字节,其中 \(b\) 是每个参数的比特数。以 Llama-3-70B 为例:
| 精度 | 位宽 | 权重显存 | 相对 BF16 |
|---|---|---|---|
| FP32 | 32 | 280 GB | 200% |
| BF16 / FP16 | 16 | 140 GB | 100% |
| FP8 (E4M3) | 8 | 70 GB | 50% |
| FP6 | 6 | 52.5 GB | 37.5% |
| INT4 / FP4 | 4 | 35 GB | 25% |
| BitNet b1.58 | 1.58 | 13.8 GB | 9.9% |
加上 KV Cache、activation buffer、CUDA graph,实际占用要再加 10%–30%。但数量级结论很清晰:BF16 → FP8 节省 50%,BF16 → INT4 节省 75%。
1.2 带宽账:decode 阶段 memory-bound
在自回归 decode 阶段,每生成一个 token 要把全部权重从 HBM 读一遍(prefill 不同,是 compute-bound)。Roofline 模型下:
\[ T_{\text{decode}} \approx \frac{\text{model\_size}}{\text{HBM\_BW}} \]
H100 SXM 的 HBM3 带宽约 3.35 TB/s。Llama-3-70B: - BF16:140 GB / 3.35 TB/s ≈ 42 ms/token(单卡理论下界) - FP8:70 GB / 3.35 TB/s ≈ 21 ms/token - INT4:35 GB / 3.35 TB/s ≈ 10.5 ms/token
这解释了为什么量化 decode 能近似线性提速 —— 带宽减半,延迟减半。实际还要乘上 dequant 开销、kernel 实现效率,通常能拿到 60%–90% 的理想加速。
1.3 成本账:更大 batch、更长上下文、更便宜的卡
权重压下去后省出来的显存可以用来:
- 扩 batch:KV Cache 预算变大,continuous batching 的 max_num_seqs 可以从 128 提到 512;
- 加长上下文:32k → 128k,对长文档 / Agent 工作流收益大;
- 降级硬件:70B INT4 可以塞进 A10G(24 GB × 2)或 L40S(48 GB),推理单价可能降一个数量级;
- 节省出口管制下的算力:H20、910B、4090D 环境里,量化是唯一可行的大模型方案。
二、浮点与整数数据类型
2.1 传统浮点:FP32 / FP16 / BF16
IEEE 754
浮点结构:符号位 S | 指数 E | 尾数 M,数值为
\((-1)^S \times 2^{E -
\text{bias}} \times 1.M\)。
| 类型 | 总位 | 符号 | 指数 | 尾数 | 动态范围 | 精度 |
|---|---|---|---|---|---|---|
| FP32 | 32 | 1 | 8 | 23 | ±3.4e38 | ~7 位十进制 |
| FP16 | 16 | 1 | 5 | 10 | ±65504 | ~3–4 位 |
| BF16 | 16 | 1 | 8 | 7 | ±3.4e38 | ~2–3 位 |
| TF32 | 19 | 1 | 8 | 10 | ±3.4e38 | ~3–4 位 |
BF16 保留 FP32 的指数范围,牺牲尾数,解决 FP16 训练中常见的溢出问题,是当前训练的主流;FP16 精度略高但动态范围窄,训练需要 loss scaling。TF32 是 Ampere 起 Tensor Core 内部的 19-bit 格式,用户侧仍写 FP32。
2.2 FP8:Hopper/Ada 引入,两种变体
Hopper(H100 / H200 / H20)和 Ada(L40S)原生支持 FP8 Tensor Core,吞吐是 BF16 的 2 倍。两种变体:
| 类型 | 符号 | 指数 | 尾数 | 动态范围 | 用途 |
|---|---|---|---|---|---|
| E4M3 | 1 | 4 | 3 | ±448 | 权重 / 激活(训练前向、推理) |
| E5M2 | 1 | 5 | 2 | ±57344 | 梯度(训练反向、动态范围要求高) |
E4M3 精度高但范围窄,E5M2 相反。NVIDIA Transformer Engine(TE) 会在训练中自动做 per-tensor scaling:统计 amax,乘 scale 后转 FP8,反向用 E5M2。
2.3 FP6:Blackwell 新增
Blackwell(B100 / B200 / GB200)新增 FP6 Tensor Core,位宽在 FP8 和 FP4 之间,精度优于 FP4、吞吐高于 FP8。社区常用的 FP6 布局是 E3M2(NVIDIA FP6-LLM 论文中使用 E2M3 和 E3M2 两种)。FP6 适合”INT4 精度不够、FP8 显存太大”的中间地带。
2.4 FP4:Blackwell Tensor Core 原生
Blackwell 支持 FP4(E2M1):1 符号 + 2 指数 + 1 尾数,可表示 \(\{\pm0, \pm0.5, \pm1, \pm1.5, \pm2, \pm3, \pm4, \pm6\}\) 共 16 个值。B200 的 FP4 Tensor Core 吞吐达到 FP8 的 2 倍、BF16 的 4 倍,官方宣称 GPT-MoE 1.8T 推理吞吐是 H100 的 30 倍主要来自 FP4 + NVLink72。
2.5 微缩放(MX)格式:OCP 标准
2023 年 Open Compute Project(AMD、ARM、Intel、Meta、Microsoft、NVIDIA、Qualcomm)联合发布 Microscaling (MX) Formats v1.0:
- 共享 scale:每 32 个元素共享一个 E8M0(8-bit 指数)的 scale,再加上元素自身的低精度浮点;
- MXFP8 / MXFP6 / MXFP4 / MXINT8:元素分别是 FP8 / FP6 / FP4 / INT8;
- 每 32-元素块的总位宽 = \(32 \times b + 8\),等价有效位宽 \(b + 0.25\)。
MX 格式把 per-block scaling 硬件化,Blackwell Tensor Core 直接消费 MXFP8/FP6/FP4,省去 CUDA kernel 手动做 dequant,大幅简化软件栈。2026 年起会逐步成为训练和推理的默认量化格式。
2.6 INT8 / INT4
纯整数量化,最简单的线性映射:
\[ q = \text{round}\left(\frac{x}{s}\right) + z, \quad x \approx s \cdot (q - z) \]
其中 \(s\) 是 scale、\(z\) 是 zero-point。对称量化 \(z=0\),非对称量化 \(z \neq 0\)。INT8 范围 \([-128, 127]\),INT4 范围 \([-8, 7]\)。INT 量化在消费卡(4090、3090)、昇腾、AMD MI250 等没有 FP8 的硬件上仍是首选。
2.7 各数据类型位布局 SVG
三、PTQ:训练后量化
PTQ(Post-Training Quantization) 不更新权重梯度,只用少量校准数据(通常 128–512 条)统计分布、求 scale / 修正权重,几分钟到几小时完成,是生产部署的主流路径。
3.1 朴素 RTN(Round-To-Nearest)
最简单:对每层权重独立求 \(s = \max(|W|) / q_{\max}\),round 到最近的量化格点。INT8 下精度通常可接受,INT4 下 LLM 质量显著下降,需要更聪明的算法。
3.2 GPTQ:基于 Hessian 的逐列最小二乘
GPTQ(Frantar et al., ICLR 2023) 把权重量化建模为带约束最小二乘:
\[ \min_{\hat W} \| W X - \hat W X \|_F^2, \quad \hat W \in \text{QuantGrid} \]
其中 \(X\) 是校准激活。GPTQ 按列(或分组)贪心量化,每量化一列用剩余列补偿误差,依赖 Hessian \(H = 2 X X^\top\) 的 Cholesky 分解:
- 计算 \(H^{-1}\);
- 按列遍历 \(W\):当前列 \(w_j\) 量化为 \(\hat w_j\),误差 \(\epsilon = (w_j - \hat w_j) / [H^{-1}]_{jj}\);
- 把 \(\epsilon\) 均摊到剩余未量化列:\(w_k \leftarrow w_k - \epsilon \cdot [H^{-1}]_{jk}\)(\(k > j\))。
对 175B 模型 4-bit 量化约需 4 小时单卡 A100。GPTQ 是 INT4
权重量化的事实标准之一,AutoGPTQ /
GPTQModel 库覆盖 Llama / Qwen / Mixtral
等主流结构。
3.3 AWQ:Activation-aware Weight Quantization
AWQ(Lin et al., MLSys 2024) 观察:权重并非同等重要,被大激活通道乘的权重列更敏感。做法:
- 对每个 in-channel \(c\) 乘缩放 \(s_c\),对应激活除以 \(s_c\): \[ Y = (W \cdot \text{diag}(s)) \cdot (\text{diag}(s)^{-1} X) = W' X' \]
- 只量化 \(W'\),激活不量化;
- \(s_c\) 通过网格搜索最小化 \(\|W'_q X' - W X\|\)。
AWQ 不依赖反向传播,只需一次前向校准,比 GPTQ 快约 10
倍,在 Llama-7B INT4 上 wikitext PPL 比 GPTQ 低
0.2–0.5。AutoAWQ 库是 vLLM / TensorRT-LLM
的首选 INT4 量化器。
3.4 SmoothQuant:权重 / 激活联合平滑
SmoothQuant(Xiao et al., ICML 2023) 针对 W8A8(权重激活都 INT8)量化:激活 outlier 集中在少数通道,直接量化会严重掉点。SmoothQuant 引入逐通道缩放 \(s_c\):
\[ Y = (X / \text{diag}(s)) \cdot (\text{diag}(s) W) = \tilde X \tilde W, \quad s_c = \max(|X_c|)^\alpha / \max(|W_c|)^{1-\alpha} \]
参数 \(\alpha\)(常取 0.5)把量化难度从激活转移一部分到权重,两者都能较平滑地 INT8,无 outlier。SmoothQuant 是 NVIDIA TensorRT-LLM INT8 的默认路径之一。
3.5 SpinQuant / QuaRot:旋转矩阵消除 outlier
2024 年涌现的一类方法,观察:outlier 来源于 Transformer residual stream 的 few-channel 集中,用正交旋转矩阵 \(R\)(Hadamard 或学习得到)做变换:
\[ \hat W = R_1^\top W R_2, \quad \hat X = R_1 X \]
在数学上等价(\(R^\top R = I\)),但旋转后的激活近似高斯,outlier 被打散,可以干净地量化到 INT4 / FP4。
- QuaRot(Ashkboos et al., 2024):用 Hadamard 旋转,计算量 \(O(n \log n)\),支持 W4A4 KV4 端到端 INT4;
- SpinQuant(Meta, 2024):旋转矩阵作为可学习参数,一次小规模 SFT 优化,W4A4 下 Llama-2-7B 相对 FP16 掉点 < 2.9 PPL。
旋转法目前是把 FP4 / INT4 激活量化做到实用的关键技术,Meta Llama 3 的 W4A4 部署方案就是基于 SpinQuant。
四、QAT:量化感知训练
PTQ 在 INT4 以下、或权重激活都量化(W4A4、W4A8)时经常掉点。QAT(Quantization-Aware Training) 在训练过程中插入 fake-quant 算子,梯度穿透(STE,Straight-Through Estimator)保持可微,让模型”学会”适应量化误差。
4.1 LLM-QAT(Meta, 2023)
在 Llama 基座上做 W4A8KV4 的 QAT:用原模型自己生成 100k 条蒸馏数据(避免依赖外部语料),KL 蒸馏 + 交叉熵,几千步训练即可收敛。
4.2 BitDistiller
在 SFT 阶段同步做 INT2/INT3 量化训练,结合 self-distillation,把 Llama-2-7B 压到 2-bit 仍保持可用质量。
4.3 BitNet 与 BitNet b1.58
BitNet(Microsoft, 2023):1-bit 权重(\(\{-1, +1\}\))从零训练 Transformer,证明在 3B 以下和 FP16 匹敌。
BitNet b1.58(Microsoft,
2024):权重取三值 \(\{-1, 0, +1\}\),等效 \(\log_2 3 \approx 1.58\)
bit。核心变化: - 权重 absmean 量化(每矩阵一个
scale); - 激活 absmax 量化到 INT8; -
LayerNorm 前加入额外的 scale; - 从头 QAT 训练(PTQ
无法得到三值)。
论文声称 3B 参数下匹敌 FP16 Llama,7B 时速度快 4
倍、显存省 7 倍。社区有 bitnet.cpp(Microsoft
官方 CPU 推理)、HuggingFace BitNet-b1.58-3B
等复现;主要限制是必须从头训练,不能量化现有模型,落地多见于边缘设备和研究项目。
五、KV Cache 量化
对长上下文、大 batch 的推理场景,KV Cache 显存占比可能超过权重。以 Llama-3-70B(Grouped-Query-Attention、head_dim=128、kv_heads=8、80 层)为例,单 token KV = \(2 \times 80 \times 8 \times 128 \times 2\text{B} = 327.68 \text{ KB}\);128k 上下文、batch=16 时 KV 总量 = \(128000 \times 16 \times 327.68 \text{KB} \approx 640 \text{ GB}\),远超权重。量化 KV Cache 收益非常可观。
5.1 FP8 KV
NVIDIA H100 上 FP8 KV Cache 几乎无损,直接用 E4M3 per-tensor 或 per-token scaling,vLLM、TensorRT-LLM、SGLang 都有原生支持:
# vLLM
llm = LLM(model="Qwen/Qwen2.5-72B-Instruct",
kv_cache_dtype="fp8_e4m3",
calculate_kv_scales=True)5.2 INT8 KV:KVQuant / KIVI
- KVQuant:per-channel 量化 Key(K 的通道分布偏态大)、per-token 量化 Value;
- KIVI:类似但无需校准,per-channel K + per-token V,对 Llama-2-7B 在 LongBench 上相对 FP16 掉点 < 1%。
5.3 INT4 KV
KIVI-2、Atom 等方法可做 INT4 KV,显存省 75%。但 INT4 KV 对长上下文(> 32k)会明显掉质量,工程上常与 FP8 混合(近期 token FP8、历史 token INT4)。
5.4 实操:vLLM FP8 KV
from vllm import LLM, SamplingParams
llm = LLM(
model="meta-llama/Meta-Llama-3.1-70B-Instruct",
quantization="fp8", # 权重 FP8
kv_cache_dtype="fp8_e4m3", # KV FP8
max_model_len=128000,
tensor_parallel_size=2,
)
out = llm.generate(["解释 KV Cache 量化的带宽收益"],
SamplingParams(max_tokens=256))
print(out[0].outputs[0].text)单机 2×H100 80GB,原本 BF16 70B 需 4 卡,FP8 权重 + FP8 KV 后 2 卡即可,吞吐反而更高。
六、激活量化与 outlier 通道
6.1 LLM.int8() 的观察(Dettmers, 2022)
Dettmers 在 6.7B 规模首次观察到:极少数(≈0.1%)激活通道的幅值是其他通道的 100×–1000×,这些”outlier 通道”直接量化会毁掉数值精度。LLM.int8() 的解法简单粗暴:
- 按通道拆两路:outlier 通道走 FP16,其余走 INT8;
- 最后把两路结果相加。
这给 6.7B 以上模型带来了几乎无损的 INT8,代价是 15%–30% 速度损失(混合精度 kernel 难优化)。
6.2 outlier 从何而来
后续研究发现 outlier 与 residual stream 中几个”承载任务路由信息”的固定通道强相关,且随训练稳定。LayerNorm 的 scale 参数 \(\gamma\) 会放大这些通道,使 outlier 在更深层愈发明显。
6.3 对策谱系
| 方法 | 思路 | 代表 |
|---|---|---|
| 混合精度 | outlier 走 FP16 | LLM.int8() |
| 激活缩放 | 把难度转移到权重 | SmoothQuant |
| 权重敏感加权 | activation-aware | AWQ |
| 正交旋转 | 打散 outlier | QuaRot / SpinQuant |
| 块级 scaling | 限制 outlier 影响范围 | MXFP4 / MXINT8 |
七、量化粒度:per-tensor / per-channel / per-group / per-block
| 粒度 | scale 数量 | 精度 | 计算开销 | 典型用途 |
|---|---|---|---|---|
| per-tensor | 1 | 低 | 低 | FP8 激活(TE 默认) |
| per-token | seq_len | 中 | 低 | INT8 激活 |
| per-channel | out_channels | 高 | 中 | INT8 权重、KVQuant K |
| per-group | out_channels × (in/g) | 高 | 中 | GPTQ/AWQ group_size=128 |
| per-block(MX) | 每 32 元素一个 | 很高 | 硬件支持好 | MXFP8/FP6/FP4 |
per-group 是 INT4 权重的主流,group_size=64 或 128 在精度和 scale 存储间平衡。per-block(MX) 是 Blackwell 起的硬件标配,scale 随数据流动,无需软件干预。
八、硬件支持矩阵
| 硬件 | BF16 | FP8 | FP6 | FP4 | INT8 | INT4 权重 |
|---|---|---|---|---|---|---|
| NVIDIA H100/H200/H20 | ✓ | ✓ E4M3/E5M2 | ✗ | ✗ | ✓ | dequant → FP16 |
| NVIDIA B100/B200/GB200 | ✓ | ✓ | ✓ MXFP6 | ✓ MXFP4 | ✓ | dequant → FP8 |
| NVIDIA L40S / Ada | ✓ | ✓ | ✗ | ✗ | ✓ | dequant → FP16 |
| NVIDIA A100 | ✓ | ✗ | ✗ | ✗ | ✓ | dequant → FP16 |
| AMD MI300X / MI325X | ✓ | ✓ E4M3/E5M2 | ✗ | ✗ | ✓ | dequant → FP16 |
| AMD MI350X(2025) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Intel Gaudi 3 | ✓ | ✓ | ✗ | ✗ | ✓ | ✓ |
| 华为昇腾 910B | ✓ | ✗ (910C 支持) | ✗ | ✗ | ✓ | dequant |
| 华为昇腾 910C(2025) | ✓ | ✓ | ✗ | ✗ | ✓ | ✓ |
| 寒武纪思元 590 | ✓ | 部分 | ✗ | ✗ | ✓ | ✓ |
| 海光 DCU K100 | ✓ | ✗ | ✗ | ✗ | ✓ | dequant |
“dequant → FP16” 表示硬件不直接计算 INT4 × FP16 矩阵乘,CUDA kernel 要先把 INT4 权重解压到 FP16 再上 Tensor Core —— 这也是为什么 GPTQ / AWQ 在 Ampere / Hopper 上拿不到理论 4× 的带宽收益,但仍可拿到 1.5×–2× decode 加速。
NVIDIA Transformer Engine 是 FP8 训练的官方路径,自动管理 per-tensor amax / scale / history;推理侧 vLLM、TensorRT-LLM 都集成了 TE 的 FP8 GEMM。
九、推理引擎的量化支持矩阵
| 引擎 | FP16/BF16 | FP8 | FP4 | INT8 W | INT4 W (AWQ) | INT4 W (GPTQ) | INT8 KV | FP8 KV |
|---|---|---|---|---|---|---|---|---|
| vLLM | ✓ | ✓ | ✓ (B200) | ✓ | ✓ | ✓ | ✓ | ✓ |
| SGLang | ✓ | ✓ | ✓ (B200) | ✓ | ✓ | ✓ | ✓ | ✓ |
| TensorRT-LLM | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| TGI (HF) | ✓ | ✓ | 实验 | ✓ | ✓ | ✓ | 部分 | ✓ |
| llama.cpp | ✓ | 部分 | ✗ | ✓ | ✓ GGUF | ✓ GGUF | ✓ | ✗ |
| MLC-LLM | ✓ | ✗ | ✗ | ✓ | ✓ | ✓ | ✗ | ✗ |
| LMDeploy (书生) | ✓ | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ | ✓ |
9.1 llama.cpp 的 GGUF 量化体系
llama.cpp 的 GGUF 格式是
CPU / 小 GPU / Apple Silicon
的主流,提供一整套精细化量化级别:
| 名称 | 等效位宽 | 说明 |
|---|---|---|
| Q8_0 | 8.5 | FP16 → INT8 block 32,几乎无损 |
| Q6_K | 6.6 | k-quant,6-bit 主 + 8-bit scale/min |
| Q5_K_M | 5.7 | 混合:重要层 Q6_K、其他 Q5_K |
| Q4_K_M | 4.8 | 社区默认:质量 / 大小平衡最好 |
| Q4_K_S | 4.6 | 更小 |
| Q3_K_M | 3.9 | 明显掉点,极端受限场景 |
| IQ2_XS | 2.3 | 基于 importance matrix 的 2-bit |
| Q2_K | 2.6 | 仅 70B 以上可用 |
Q4_K_M 是桌面 / Mac 跑 70B 的黄金组合,40 GB
左右内存即可,质量接近 FP16。
十、工程实操:AutoAWQ 量化 Qwen + 部署 vLLM
10.1 环境
pip install autoawq==0.2.6 vllm==0.6.3 transformers==4.45.010.2 AutoAWQ 量化脚本
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = "Qwen/Qwen2.5-7B-Instruct"
quant_path = "./qwen2.5-7b-awq-int4"
quant_config = {
"zero_point": True,
"q_group_size": 128,
"w_bit": 4,
"version": "GEMM",
}
model = AutoAWQForCausalLM.from_pretrained(
model_path, device_map="auto", safetensors=True
)
tok = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
# 校准数据:通用 + 领域混合 128 条足够
calib = [
"量化是把高精度张量映射到低位宽的过程。",
"vLLM 使用 PagedAttention 管理 KV Cache。",
# ...
] * 16
model.quantize(tok, quant_config=quant_config, calib_data=calib)
model.save_quantized(quant_path, safetensors=True)
tok.save_pretrained(quant_path)
print("AWQ done ->", quant_path)7B 模型单卡 A100 约 20 分钟完成。产物为 safetensors +
quant_config.json,体积约 5.5 GB(原 BF16 约 14
GB)。
10.3 GPTQ 脚本(对比)
from gptqmodel import GPTQModel, QuantizeConfig
cfg = QuantizeConfig(bits=4, group_size=128, desc_act=True, sym=True)
model = GPTQModel.from_pretrained("Qwen/Qwen2.5-7B-Instruct", quantize_config=cfg)
model.quantize(calib_dataset=calib, batch_size=1)
model.save("./qwen2.5-7b-gptq-int4")GPTQ 依赖 Hessian,显存峰值和耗时高于 AWQ,但在某些任务(数学、代码)上略稳定。
10.4 vLLM 部署
python -m vllm.entrypoints.openai.api_server \
--model ./qwen2.5-7b-awq-int4 \
--quantization awq_marlin \
--kv-cache-dtype fp8_e4m3 \
--max-model-len 32768 \
--gpu-memory-utilization 0.92 \
--port 8000awq_marlin 是 vLLM 集成的高性能 AWQ
kernel(基于 NVIDIA Marlin),decode 吞吐比早期 AWQ 快 2–3
倍。
10.5 TensorRT-LLM 部署(FP8)
# 权重转换 + 校准
python convert_checkpoint.py \
--model_dir Qwen2.5-72B-Instruct \
--output_dir ./ckpt-fp8 \
--dtype bfloat16 --use_fp8 --fp8_kv_cache
# Engine 构建
trtllm-build --checkpoint_dir ./ckpt-fp8 \
--output_dir ./engine-fp8 \
--gemm_plugin fp8 --max_batch_size 64 --max_input_len 32768
# 运行
mpirun -n 2 trtllm-run --engine_dir ./engine-fp8 \
--input_text "解释 FP8 的 E4M3 与 E5M2 区别"10.6 精度前后对比:MMLU / GSM8K / PPL
一个经验性的参考表(Qwen2.5-7B-Instruct,单次评估,具体数值因版本和评测脚本而异):
| 版本 | wikitext PPL | MMLU (5-shot) | GSM8K (strict) | 显存(单卡) |
|---|---|---|---|---|
| BF16 | 6.85 | 74.2 | 80.5 | 14.2 GB |
| FP8 (E4M3, per-tensor) | 6.87 | 74.1 | 80.3 | 7.3 GB |
| INT8 W + INT8 A (SmoothQuant) | 6.92 | 73.8 | 79.6 | 7.6 GB |
| INT4 W AWQ g128 | 7.08 | 73.5 | 78.9 | 5.7 GB |
| INT4 W GPTQ g128 | 7.15 | 73.2 | 78.4 | 5.7 GB |
| INT4 W + INT4 KV (Atom) | 7.40 | 72.1 | 76.3 | 4.8 GB |
| GGUF Q4_K_M | 7.12 | 73.4 | 78.7 | 5.3 GB (CPU/GPU) |
结论: - FP8 几乎无损,显存减半; - W8A8 SmoothQuant 几乎无损; - INT4 AWQ 掉 < 1 分 MMLU,是显存 / 质量最优解; - INT4 KV 要谨慎,长上下文任务掉点明显。
十一、精度 vs 速度权衡图
十二、常见坑与经验法则
12.1 “量化后模型胡说八道”排查
- 校准集不匹配:用通用语料量化,业务是中文 / 代码,换成业务相关数据再跑一次;
- group_size 过大:INT4 g=256 掉点明显,改 128 或 64;
- outlier 层未跳过:embedding、lm_head、最后一层 norm 常跳过量化;
- kv_cache_dtype INT4 太激进:先只量化权重,再逐步量化 KV。
12.2 “量化后速度没变快”排查
- kernel fallback 到 FP16:Ampere / 非 Hopper 卡跑 FP8 会 emulate,反而变慢;
- batch 太大,compute-bound:量化主要降 decode 延迟,prefill 阶段收益小;
- max_model_len 过小:KV 占比低,省带宽价值不明显;
- 未用融合 kernel:AWQ 要跑在
awq_marlin、GPTQ 要跑在exllamav2/marlin。
12.3 经验法则
- 有 Hopper 以上就 FP8:训练推理同构,精度无损,工程最省心;
- A100 / Ampere 用 AWQ INT4 + FP16 KV:单卡跑 70B 的最佳组合;
- 消费卡跑 70B:llama.cpp GGUF Q4_K_M;
- B200 部署:MXFP4 权重 + FP8 KV,吞吐最大化;
- 出口管制硬件(H20、910B):FP8(H20) / INT8(910B)是主路径;
- KV Cache 量化在长上下文才有价值:< 8k 场景先别碰;
- 从 PTQ 开始,不够再 QAT:QAT 训练成本高,98% 情况 PTQ 足够。
十三、产业现状(2026 Q1 快照)
- OpenAI:GPT-4o / o3 内部使用 FP8 训练和推理(Blackwell FP4 推理已在灰度);
- Anthropic:Claude 系列 AWS Trainium / H100 上 FP8 + FP8 KV;
- Meta:Llama 3 / 3.1 官方发布 BF16 + FP8 + Int4(AWQ / SpinQuant W4A4)三套权重;
- Google:Gemini 在 TPU v5p / Trillium 上用 BF16 + INT8;
- DeepSeek:V3 原生 FP8 训练(DeepSeek-V3 技术报告),推理默认 FP8;
- Qwen 系列:官方发布 GPTQ-Int4 / AWQ / FP8 三种,社区 GGUF 覆盖全系;
- Kimi / MoonShot:长上下文场景使用 INT8 KV + FP8 权重;
- 字节豆包 / 火山引擎:自研推理引擎支持 FP8、INT8、INT4,混合量化策略;
- llama.cpp 生态:社区 GGUF 已成为本地部署事实标准,HF Hub 上每个主流开源模型都有 10+ GGUF 变体。
十四、小结
量化已从”压缩模型的 trick”演进为推理栈的一等公民:
- 数据类型:FP8 → FP6/FP4 → MX 格式,硬件和软件都在快速迭代;
- 算法:AWQ / GPTQ / SmoothQuant / SpinQuant 覆盖 PTQ 主要路径,QAT / BitNet 探索极限;
- KV Cache:和权重同等重要,FP8 KV 已是生产标配;
- 工程:AutoAWQ → vLLM、Transformer Engine → TensorRT-LLM、GGUF → llama.cpp 三套成熟组合;
- 决策:硬件 → 选位宽 → 选算法 → 选引擎 → 选粒度 → 选 KV 策略。
理解清楚上述每一环,结合业务 SLO(延迟、吞吐、质量、成本),才能做出正确的量化选型。下一篇 推测解码与 MTP 进入推理优化的”预测并行”维度 —— 和量化正交,叠加使用收益可再翻倍。
参考资料
- Dettmers et al. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS 2022.
- Frantar et al. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ICLR 2023.
- Lin et al. AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. MLSys 2024.
- Xiao et al. SmoothQuant: Accurate and Efficient Post-Training Quantization for LLMs. ICML 2023.
- Ashkboos et al. QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs. NeurIPS 2024.
- Liu et al. SpinQuant: LLM Quantization with Learned Rotations. Meta, 2024.
- Ma et al. The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits. Microsoft, 2024.
- Xu et al. KIVI: A Tuning-Free Asymmetric 2-bit KV Cache Quantization. ICML 2024.
- Hooper et al. KVQuant: Towards 10 Million Context Length LLM Inference. NeurIPS 2024.
- OCP Microscaling Formats (MX) Specification v1.0, 2023.
- NVIDIA Transformer Engine Documentation(FP8 / MXFP8)。
- NVIDIA TensorRT-LLM 仓库与 Qwen / Llama 量化示例。
- vLLM / SGLang / llama.cpp / AutoAWQ / GPTQModel 官方仓库与 README。
- DeepSeek-AI DeepSeek-V3 Technical Report(FP8 训练实践)。
- Meta Llama 3.1 / 3.2 Quantization Recipes。
上一篇:vLLM / SGLang / TensorRT-LLM / TGI 对比 下一篇:推测解码与 MTP
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测
面向工程师的大模型基础设施开篇地图,覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。
【大模型基础设施工程】02:GPU 计算入门——SM、Tensor Core、HBM、NVLink
从 CPU 与 GPU 的架构差异出发,讲清楚 SM、Warp、Tensor Core、HBM、NVLink 的工程含义,并结合 Roofline、FlashAttention 与国产算力栈,给出大模型工程师能直接上手的 GPU 心智模型。
【大模型基础设施工程】03:CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS
从 nvcc 到 Triton,把 NVIDIA 软件栈的每一层拆给大模型工程师看,顺便谈谈 ROCm、CANN 为什么一直追不上。
【大模型基础设施工程】04:互联与网络——NVLink、InfiniBand、RoCE 与国产替代
从 NVLink / NVSwitch / NVL72 到 InfiniBand NDR 与 RoCEv2,再到华为 CloudMatrix、阿里 HPN、腾讯星脉,系统梳理万卡集群互联的工程选型与踩坑。