GPU 显存管理与模型量化:从 OOM 到上线的工程路径
模型能跑了不代表能上线。24GB 的 4090 装不下 70B 模型?那就量化。量化完精度崩了?从显存碎片到 MIG 隔离,从 GPTQ 到 AWQ,这篇拆解从 OOM 到生产部署的完整工程路径。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 1 篇文章 · 返回首页
模型能跑了不代表能上线。24GB 的 4090 装不下 70B 模型?那就量化。量化完精度崩了?从显存碎片到 MIG 隔离,从 GPTQ 到 AWQ,这篇拆解从 OOM 到生产部署的完整工程路径。