Embedding选型
小于 1 分钟
数据准备
最近试了几个文本嵌入模型,可视化到二维看看效果 数据量比较小,纯主观判断了
准备了一组数据:
- 知识库是从4个文档里提取的,一共切割成24个chunk
- 商务视频彩铃产品介绍
- 云录音产品介绍
- 智能语音云售后文档
- 商务视频彩铃售后文档
- 然后准备了7个问题
- 售后类:2个(xxx不生效、xxx不好用...)
- 介绍类:3个(xxx是什么...)
- 多跳:1个(云录音和商务视频彩铃的区别是什么...)
- 其他(混淆):1个(转人工)
效果对比
耗时(s) | 效果 | |
---|---|---|
qwen3-0.6b | 8.66 | 不愧是HuggingFace霸榜的大哥 |
nomic-v1.5 | 7.00 | 被另外两个完爆,它居然把问题都聚合到一起了 |
bge-m3 | 7.09 | 虽然也是把问题都聚到一起了,但是起码每个问题的最近知识还是比较靠谱的 |