【大模型基础设施工程】14:量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ
从数据类型、PTQ/QAT 算法、KV Cache 量化到 H100/B200/MI300/昇腾硬件支持,覆盖 AutoAWQ、GPTQ、SmoothQuant、BitNet 与 vLLM/TensorRT-LLM/llama.cpp 工程落地
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
从数据类型、PTQ/QAT 算法、KV Cache 量化到 H100/B200/MI300/昇腾硬件支持,覆盖 AutoAWQ、GPTQ、SmoothQuant、BitNet 与 vLLM/TensorRT-LLM/llama.cpp 工程落地