LLM量化命名体系
大约 2 分钟
什么是量化?
量化是通过降低数值精度来减小模型体积和提升推理速度的技术。
量化格式分类
1. GGUF/GGML格式(CPU优化)
命名模式: 模型名-量化等级.gguf
量化等级(精度从高到低):
| 等级 | 比特数 | 特点 | 适用场景 |
|---|---|---|---|
| Q8_0 | 8bit | 几乎无损 | 最高质量需求 |
| Q6_K | ~6bit | 精度损失极小 | 高质量输出 |
| Q5_K | ~5bit | 质量与体积平衡 | 推荐默认选择 |
| Q4_K | ~4bit | 良好平衡 | 大多数CPU场景 |
| Q3_K | ~3bit | 体积较小 | 资源受限环境 |
| Q2_K | ~2bit | 极简体积 | 试验性使用 |
2. GPTQ格式(GPU优化)
命名模式: 模型名-GPTQ-4bit(-其他信息)
关键参数:
4bit:4比特量化128g/32g:组大小(group size),数值越小精度越高act-order:激活顺序,提升精度no-act-order:无激活顺序
示例: Qwen2-7B-Instruct-GPTQ-4bit-128g-actorder
3. AWQ格式(GPU优化)
命名模式: 模型名-AWQ-4bit(-其他信息)
特点:
- 保护显著权重,泛化性更好
- 理论精度保持更优
示例: Qwen2-7B-Instruct-AWQ-4bit
4. 其他量化方式
Bitsandbytes(BNB):
- 加载时动态量化
- 不体现在文件名中
- 代码中指定量化配置
量化格式选择指南
| 格式 | 目标硬件 | 优势 | 典型使用场景 |
|---|---|---|---|
| GGUF | CPU | 兼容性广,分级细致 | 个人电脑本地部署 |
| GPTQ | NVIDIA GPU | 推理速度快 | 显卡服务器部署 |
| AWQ | NVIDIA GPU | 泛化性好 | 生产环境GPU部署 |
| BNB | NVIDIA GPU | 动态灵活 | 实验性快速测试 |
完整命名示例解析
示例1: Qwen2-7B-Instruct-GPTQ-4bit-128g-actorder
- 品牌版本:Qwen2
- 参数量:7B
- 类型:Instruct(指令微调)
- 量化:GPTQ格式,4比特,128组大小,激活顺序
示例2: Llama-3.1-8B-Instruct-Q4_K.gguf
- 品牌版本:Llama-3.1
- 参数量:8B
- 类型:Instruct
- 量化:GGUF格式,Q4_K中等量化等级
实用选择建议
- CPU用户 → 选择GGUF格式,Q4_K或Q5_K等级
- GPU用户 → 选择GPTQ或AWQ格式
- 质量优先 → 选择更高比特的量化(Q5_K > Q4_K)
- 体积优先 → 选择更低比特的量化(Q3_K < Q4_K)
- 实验测试 → 使用Bitsandbytes动态量化