跳至主要內容

Embedding选型

pptg小于 1 分钟

数据准备

最近试了几个文本嵌入模型,可视化到二维看看效果 数据量比较小,纯主观判断了

准备了一组数据:

  • 知识库是从4个文档里提取的,一共切割成24个chunk
    • 商务视频彩铃产品介绍
    • 云录音产品介绍
    • 智能语音云售后文档
    • 商务视频彩铃售后文档
  • 然后准备了7个问题
    • 售后类:2个(xxx不生效、xxx不好用...)
    • 介绍类:3个(xxx是什么...)
    • 多跳:1个(云录音和商务视频彩铃的区别是什么...)
    • 其他(混淆):1个(转人工)

效果对比

qwen3-0.6b embeddingnomic v1.5bge-m3

耗时(s)效果
qwen3-0.6b8.66不愧是HuggingFace霸榜的大哥
nomic-v1.57.00被另外两个完爆,它居然把问题都聚合到一起了
bge-m37.09虽然也是把问题都聚到一起了,但是起码每个问题的最近知识还是比较靠谱的