跳至主要內容

LLM量化命名体系

pptg大约 2 分钟

什么是量化?

量化是通过降低数值精度来减小模型体积和提升推理速度的技术。

量化格式分类

1. GGUF/GGML格式(CPU优化)

命名模式: 模型名-量化等级.gguf

量化等级(精度从高到低):

等级比特数特点适用场景
Q8_08bit几乎无损最高质量需求
Q6_K~6bit精度损失极小高质量输出
Q5_K~5bit质量与体积平衡推荐默认选择
Q4_K~4bit良好平衡大多数CPU场景
Q3_K~3bit体积较小资源受限环境
Q2_K~2bit极简体积试验性使用

2. GPTQ格式(GPU优化)

命名模式: 模型名-GPTQ-4bit(-其他信息)

关键参数:

  • 4bit:4比特量化
  • 128g/32g:组大小(group size),数值越小精度越高
  • act-order:激活顺序,提升精度
  • no-act-order:无激活顺序

示例: Qwen2-7B-Instruct-GPTQ-4bit-128g-actorder

3. AWQ格式(GPU优化)

命名模式: 模型名-AWQ-4bit(-其他信息)

特点:

  • 保护显著权重,泛化性更好
  • 理论精度保持更优

示例: Qwen2-7B-Instruct-AWQ-4bit

4. 其他量化方式

Bitsandbytes(BNB):

  • 加载时动态量化
  • 不体现在文件名中
  • 代码中指定量化配置

量化格式选择指南

格式目标硬件优势典型使用场景
GGUFCPU兼容性广,分级细致个人电脑本地部署
GPTQNVIDIA GPU推理速度快显卡服务器部署
AWQNVIDIA GPU泛化性好生产环境GPU部署
BNBNVIDIA GPU动态灵活实验性快速测试

完整命名示例解析

示例1: Qwen2-7B-Instruct-GPTQ-4bit-128g-actorder

  • 品牌版本:Qwen2
  • 参数量:7B
  • 类型:Instruct(指令微调)
  • 量化:GPTQ格式,4比特,128组大小,激活顺序

示例2: Llama-3.1-8B-Instruct-Q4_K.gguf

  • 品牌版本:Llama-3.1
  • 参数量:8B
  • 类型:Instruct
  • 量化:GGUF格式,Q4_K中等量化等级

实用选择建议

  1. CPU用户 → 选择GGUF格式,Q4_K或Q5_K等级
  2. GPU用户 → 选择GPTQ或AWQ格式
  3. 质量优先 → 选择更高比特的量化(Q5_K > Q4_K)
  4. 体积优先 → 选择更低比特的量化(Q3_K < Q4_K)
  5. 实验测试 → 使用Bitsandbytes动态量化