数据准备
最近试了几个文本嵌入模型,可视化到二维看看效果 数据量比较小,纯主观判断了
准备了一组数据:
- 知识库是从4个文档里提取的,一共切割成24个chunk
- 商务视频彩铃产品介绍
- 云录音产品介绍
- 智能语音云售后文档
- 商务视频彩铃售后文档
- 然后准备了7个问题
- 售后类:2个(xxx不生效、xxx不好用...)
- 介绍类:3个(xxx是什么...)
- 多跳:1个(云录音和商务视频彩铃的区别是什么...)
- 其他(混淆):1个(转人工)
费大厨辣椒炒肉真是太好吃了!
最近试了几个文本嵌入模型,可视化到二维看看效果 数据量比较小,纯主观判断了
准备了一组数据:
为什么要做这个?
有的时候上班不太忙,晚上到点打卡就下班 正好路过女朋友的单位,想一块吃个饭再回家 但是她可能在努力coding,没及时看消息,导致错过了 于是乎,就想弄一个直接在桌面弹出来的消息通知小工具
哈哈,被老妹盗了,拿去参加什么创意大赛了
对于一个表格类型的数据,上传到知识库中之后,如果行列不大,那还好说。一旦需要切块,就会将原本数据中的纵向信息丢失,导致数据跨度很大、或者全局性问题的回答效果较差。
上表中,每一行分别意味着XXX场景,都适用于哪些行业。
直接放到Dify的知识库中,对其进行切片,结果如下:
进行简单的对话测试:
是tiktoken的锅,tiktoken_ext/openai_public.py#L17会去下载gpt2的分词器
而dify在python/dify_plugin/interfaces/model/ai_model.py#L281引用了gpt2的分词器
进入plugin容器的挂载目录,将openai的相关文件离线下载下来
来到国企上班真是太坎坷了TAT,虽然是专业公司,算半个国企吧。
其实最喜欢的应该是iOS开发了,毕竟我可是有全家桶的🤣
最擅长的是Matlab,用这玩意,本科闲鱼兼职赚过1w+。门槛高竞争对手少,就是没啥公司用啊
现在感觉弄点AI也不错,我比较喜欢思路 > 编码。就和搞Matlab一样,要不天天crud遭不住了
23.6 安卓开发工程师
23.7 后端工程师
23.9 后端+前端工程师
24.4 后端+前端+运维工程师
24.9 杂活小兵
24.12 产品经理 + 项目经理
25.6 AI工程师
# 拉取dify代码
git clone https://github.com/langgenius/dify
# 创建env等文件
# 在dify/docker下
cp .env.example .env
# 进入 .env 修改配置,可以跳过
vim .env
# 启动
docker compose up -d
在NLP任务中,首先要考虑词如何在计算机中表示。
one-hot根据词语的数量N,生成长度为N的序列,只需要在当前词的位置标记为1即可。
词向量用有限的维度,表示无限的词语。
直接在linux上用docker启动
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
environment:
- OLLAMA_HOST=0.0.0.0:11434 # 允许局域网访问
volumes:
- ollama_data:/root/.ollama
restart: unless-stopped
volumes:
ollama_data:
在开发小程序的时候,演示版不能超过4MB的大小,为了能顺利的演示只能把图片放到图床上了。
发现很多图床都需要MySQL才能跑,而我只是想要应付一下演示,所以就找了一个不需要数据库的,docker-compose
文件如下:
services:
easyimage:
image: ddsderek/easyimage:latest
container_name: easyimage
ports:
- '8080:80'
environment:
- TZ=Asia/Shanghai
- PUID=1000
- PGID=1000
- DEBUG=false
volumes:
- '/root/data/docker_data/easyimage/config:/app/web/config'
- '/root/data/docker_data/easyimage/i:/app/web/i'
restart: unless-stopped
配置脚本地址,这里会从远程的jenkins-file
中读取构建的过程,所以写jenkins-file
的地址,Credentials
写可以正常拉这个jenkins-file
的git账户、密码
配置脚本路径,配置jenkins-file
项目下的文件路径