写AI真好玩,能自己决定技术栈真好。可以接触到很多非CRUD的东西。
Dify版本:1.4.3
1. 前言
Dify作为一个快速验证思路的工具,还是非常不错的。但是也正因为可视化的拖拽,导致灵活性大大降低。所以最近一直在用langchain/langgraph
自研AI平台。
在Dify这里还是吸收了不少经验,最开始Chat这块我是打算一路yield到底的,后面流程复杂了之后,发现各种消息乱飘,调试起来非常复杂。于是参考了Dify的架构进行了重构。
费大厨辣椒炒肉真是太好吃了!
写AI真好玩,能自己决定技术栈真好。可以接触到很多非CRUD的东西。
Dify版本:1.4.3
Dify作为一个快速验证思路的工具,还是非常不错的。但是也正因为可视化的拖拽,导致灵活性大大降低。所以最近一直在用langchain/langgraph
自研AI平台。
在Dify这里还是吸收了不少经验,最开始Chat这块我是打算一路yield到底的,后面流程复杂了之后,发现各种消息乱飘,调试起来非常复杂。于是参考了Dify的架构进行了重构。
今天把镜像推到服务器上,出现了openaipublic.blob.cor.windows.net
,继Dify离线报错出过这个类似问题之后,LangChain也出现了。
原因是LangChain在用langchain_openai
的时候,依旧会去openaipublic.blob.cor.windows.net
上拉tiktoken
分词器。
最近试了几个文本嵌入模型,可视化到二维看看效果 数据量比较小,纯主观判断了
准备了一组数据:
为什么要做这个?
有的时候上班不太忙,晚上到点打卡就下班 正好路过女朋友的单位,想一块吃个饭再回家 但是她可能在努力coding,没及时看消息,导致错过了 于是乎,就想弄一个直接在桌面弹出来的消息通知小工具
哈哈,被老妹盗了,拿去参加什么创意大赛了
对于一个表格类型的数据,上传到知识库中之后,如果行列不大,那还好说。一旦需要切块,就会将原本数据中的纵向信息丢失,导致数据跨度很大、或者全局性问题的回答效果较差。
上表中,每一行分别意味着XXX场景,都适用于哪些行业。
直接放到Dify的知识库中,对其进行切片,结果如下:
进行简单的对话测试:
是tiktoken的锅,tiktoken_ext/openai_public.py#L17会去下载gpt2的分词器
而dify在python/dify_plugin/interfaces/model/ai_model.py#L281引用了gpt2的分词器
进入plugin容器的挂载目录,将openai的相关文件离线下载下来
来到国企上班真是太坎坷了TAT,虽然是专业公司,算半个国企吧。
其实最喜欢的应该是iOS开发了,毕竟我可是有全家桶的🤣
最擅长的是Matlab,用这玩意,本科闲鱼兼职赚过1w+。门槛高竞争对手少,就是没啥公司用啊
现在感觉弄点AI也不错,我比较喜欢思路 > 编码。就和搞Matlab一样,要不天天crud遭不住了
23.6 安卓开发工程师
23.7 后端工程师
23.9 后端+前端工程师
24.4 后端+前端
24.9 杂活小兵
24.12 产品经理 + 项目经理
25.6 AI工程师
# 拉取dify代码
git clone https://github.com/langgenius/dify
# 创建env等文件
# 在dify/docker下
cp .env.example .env
# 进入 .env 修改配置,可以跳过
vim .env
# 启动
docker compose up -d
在NLP任务中,首先要考虑词如何在计算机中表示。
one-hot根据词语的数量N,生成长度为N的序列,只需要在当前词的位置标记为1即可。
词向量用有限的维度,表示无限的词语。