LLM量化命名体系

pptg大约 2 分钟

什么是量化？

量化是通过降低数值精度来减小模型体积和提升推理速度的技术。

量化格式分类

1. GGUF/GGML格式（CPU优化）

命名模式： 模型名-量化等级.gguf

量化等级（精度从高到低）：

等级	比特数	特点	适用场景
Q8_0	8bit	几乎无损	最高质量需求
Q6_K	~6bit	精度损失极小	高质量输出
Q5_K	~5bit	质量与体积平衡	推荐默认选择
Q4_K	~4bit	良好平衡	大多数CPU场景
Q3_K	~3bit	体积较小	资源受限环境
Q2_K	~2bit	极简体积	试验性使用

2. GPTQ格式（GPU优化）

命名模式： 模型名-GPTQ-4bit(-其他信息)

关键参数：

4bit：4比特量化
128g/32g：组大小（group size），数值越小精度越高
act-order：激活顺序，提升精度
no-act-order：无激活顺序

示例： Qwen2-7B-Instruct-GPTQ-4bit-128g-actorder

3. AWQ格式（GPU优化）

命名模式： 模型名-AWQ-4bit(-其他信息)

特点：

保护显著权重，泛化性更好
理论精度保持更优

示例： Qwen2-7B-Instruct-AWQ-4bit

4. 其他量化方式

Bitsandbytes（BNB）：

加载时动态量化
不体现在文件名中
代码中指定量化配置

量化格式选择指南

格式	目标硬件	优势	典型使用场景
GGUF	CPU	兼容性广，分级细致	个人电脑本地部署
GPTQ	NVIDIA GPU	推理速度快	显卡服务器部署
AWQ	NVIDIA GPU	泛化性好	生产环境GPU部署
BNB	NVIDIA GPU	动态灵活	实验性快速测试

完整命名示例解析

示例1： Qwen2-7B-Instruct-GPTQ-4bit-128g-actorder

品牌版本：Qwen2
参数量：7B
类型：Instruct（指令微调）
量化：GPTQ格式，4比特，128组大小，激活顺序

示例2： Llama-3.1-8B-Instruct-Q4_K.gguf

品牌版本：Llama-3.1
参数量：8B
类型：Instruct
量化：GGUF格式，Q4_K中等量化等级

实用选择建议

CPU用户 → 选择GGUF格式，Q4_K或Q5_K等级
GPU用户 → 选择GPTQ或AWQ格式
质量优先 → 选择更高比特的量化（Q5_K > Q4_K）
体积优先 → 选择更低比特的量化（Q3_K < Q4_K）
实验测试 → 使用Bitsandbytes动态量化