Embedding选型

pptg小于 1 分钟

数据准备

最近试了几个文本嵌入模型，可视化到二维看看效果数据量比较小，纯主观判断了

准备了一组数据：

知识库是从4个文档里提取的，一共切割成24个chunk
- 商务视频彩铃产品介绍
- 云录音产品介绍
- 智能语音云售后文档
- 商务视频彩铃售后文档
然后准备了7个问题
- 售后类：2个（xxx不生效、xxx不好用...）
- 介绍类：3个（xxx是什么...）
- 多跳：1个（云录音和商务视频彩铃的区别是什么...）
- 其他（混淆）：1个（转人工）

效果对比

qwen3-0.6b embedding nomic v1.5 bge-m3

	耗时(s)	效果
qwen3-0.6b	8.66	不愧是HuggingFace霸榜的大哥
nomic-v1.5	7.00	被另外两个完爆，它居然把问题都聚合到一起了
bge-m3	7.09	虽然也是把问题都聚到一起了，但是起码每个问题的最近知识还是比较靠谱的