LLM命名体系
大约 3 分钟
通常情况下,模型不会以单个名称存在,比如Qwen3,Kimi2,往往会给他们加上非常多的后缀,比如Qwen3-Next-80B-A3B-Instruct,Kimi-K2-Instruct-0905,这些都是什么意思呢
常见的命名体系是:
主版本-子系列-总参数-激活参数-训练类型-架构-日期
一个完整的模型名称,通常遵循一个从宏观到微观的逻辑顺序,可以拆解为以下几个层次:
- 品牌与主版本号:确立模型系列和代际。
- 架构与规模:定义模型的技术路线和计算体量。
- 能力:指明模型在特定领域的优化。
- 训练阶段与对齐方式:说明模型的“成熟度”和安全性。
- 版本与元数据:提供更精细的版本控制和构建信息。
下面我们根据这个逻辑层次,对常见的命名组成部分进行详细说明。
1. 品牌与主版本号
主名称:如 Qwen, Llama, ChatGLM, Kimi,代表模型系列。 主版本号:如 2, 3, 2.5,代表模型架构和训练数据的重大迭代。Qwen2.5 意味着它是 Qwen2 的显著改进版,而非全新系列。
2. 架构与规模
总参数:如 7B, 13B, 70B, 500B。代表模型的总体参数量,是衡量模型容量和潜在能力的关键指标。通常(但不绝对)参数越大,能力越强。
架构变种:
- MoE: 混合专家架构,指的是模型内部由多个专家构成,推理的时候并不是全部都参与推理的
- A3B: 指的是推理时激活参数的大小
3. 能力
- Code:如 Code, Coder。专为代码生成、补全、解释和调试优化。
- Math:如 Math。在数学推理和解题方面进行了专门训练和优化。
- Multilingual:如 Multilingual,或直接在名称中体现,如 BGE-M3。强调在多语言任务上的强大能力。
- Vision:如 VL, Vision。表示是多模态模型,可以理解和处理图像信息。
4. 训练阶段与对齐方式
- Base / Pretrained:基座模型。仅在大量文本上进行了预训练,没有经过指令微调。它擅长文本补全,但可能不会很好地遵循指令。主要供开发者进行进一步微调。
- Instruct / Chat:指令微调/对话版。这是最常见的面向用户的版本。通过在指令和对话数据上进行微调,使其能理解用户意图,并以有帮助、安全的方式回应。
- RLHF / DPO:如 RLHF, DPO。代表使用了人类反馈强化学习或直接偏好优化等更高级的对齐技术,旨在让模型的输出更符合人类价值观和偏好。
- Distilled:蒸馏版。由一个更大的“教师模型”指导训练出的小模型,力求在体积更小的情况下保留大部分性能。
5. 版本与元数据
- 日期:如 0905, 20240704。表示模型发布的日期或对应数据快照的日期,用于区分同一系列内的不同迭代版本。
- 迭代版本:如 v1, v2, v1.5。在主要版本下的小幅改进和修复。
- 发布渠道:如 Beta, Preview, Final。
- 综合示例解析