Why Fuser
为什么在开源方案漫天飞的情况下选择自己做
- 开源项目没有绝对银弹,像 25 年比较火爆的 Dify、Coze,到了 26 年已经是智能体的天下了,热度明显降低
- AI Coding 崛起,产研成本大幅降低,想法落地的时间大幅缩减
Fuser 本身的意思是融合,即融合市面上的解决方案,取其精华。
背景
我是 25 年中,因为部门专门做 AI 的大姐姐走了,也算是临危受命,把我从集团抽回来负责 AI 相关的工作。

费大厨辣椒炒肉真是太好吃了!
Fuser 本身的意思是融合,即融合市面上的解决方案,取其精华。
我是 25 年中,因为部门专门做 AI 的大姐姐走了,也算是临危受命,把我从集团抽回来负责 AI 相关的工作。
大模型推理过程,可以分为两个阶段,预填充阶段(prefill stage)和解码阶段(decode stage)。 预填充阶段是计算密集型,解码阶段为内存密集型,两个阶段分别具有不同的推理特性。 如果把两个阶段放在同一个计算设备上,会导致两阶段优化目标SLOs冲突,而且耦合了两个阶段的部署策略。
如果不做PD分离的话,因为Prefill的推理时间更长,所以会导致同一批次进行的Decode任务延迟很大(必需等待Prefill完成)。
最近真是高产,其实这些东西也断断续续的学了很久了
直到最近一周,才有一种连点成线的感觉
先看上面古诗接龙的例子,LLM其实就是一轮一轮的猜下一个词
token序列经过这一步之后,文本将被拆分为token序列,用于后续的向量查找
文本在预处理阶段,经过tokenize(分词)和embedding(嵌入),转为机器可以理解、计算的向量:
vLLM是加州伯克利开源的LLM推理框架,核心目标是最大化推理吞吐量、降低延迟, 其核心优化机制为: PagedAttention、Prefix Cache、Continuous Batching。
在Transformer解码时,每个token的生成,都需要和之前所有token的KV做注意力计算,如果不缓存,每次都需要重新计算整个序列,效率极低。KV Cache通过存储所有历史token的键值对,实现了空间换时间,最终复杂度从降低到了
2017 年提出的 Transformer 完全摒弃了 RNN,仅依靠注意力机制来实现Seq2Seq,成为当前主流(如 BERT、GPT 等模型的基础)
Seq2Seq(Sequence-to-Sequence,序列到序列)是一种深度学习模型架构,主要用于将一个输入序列转换为另一个输出序列。它最初被广泛应用于机器翻译任务(例如将英文句子翻译成中文)。主要由两个部分组成:
25年的工作结束了,最近进行了年度述职,也争取到了和大领导一对一述职的机会。跟领导讨论了一些AI、业务和个人成长方面的问题。
这一年我给自己的述职标题是:拓宽边界,回归本质。 25年的经历实在是太丰富了,上半年还在做产品经理,下半年摇身一变就成了AI研发。再后来开始慢慢的牵头整个大部门的AI技术。 回想起来我来这家公司的第一个岗位还是安卓研发呢.
在NLP任务中,文本是没有办法直接参与数学计算的,因此首先要考将文本转换为数字,也就是文本向量。
分词器的目的是将连续的文本序列切分成有意义的、可供模型处理的基本单元(Token)。 这个“基本单元”的定义,随着计算能力、数据规模和任务需求的变化而演变。 其发展主线是:从追求人类可理解的“词”,转向追求模型高效处理的“子词”。
跟沐神学 吼吼吼,上学不跟沐神好好学,上班之后来换债了
原文里的conda,这里会换成uv,如果遇到问题再说吧,uv实在是太快了
这里推荐是用GPU,我用的MAC,所以先用CPU顶一下,后面遇到需要GPU的地方再去租云GPU吧
# 新建项目
mkdir ml_learn
cd ml_learn
# uv初始化
uv init
# 添加环境
uv add jupyter
uv add torch
uv add pandas
uv add matplotlib
uv add d2l
uv add torchvision
# 下载D2L
curl https://zh-v2.d2l.ai/d2l-zh-2.0.0.zip -o d2l-zh.zip
unzip d2l-zh.zip && rm d2l-zh.zip
代码经过编译后,会生成可执行文件。当执行这个可执行文件时,它会被加载到内存中,接着CPU会执行程序中的指令。这个运行中的程序,就称之为进程(Process)。
在一个进程运行过程中,难免会去读磁盘、网络的IO,这个时间相对是比较长的。此时,CPU 不需要阻塞等待数据的返回,而是去执行另外的进程。当硬盘数据返回时,CPU 会收到个中断,于是 CPU 再继续运行这个进程。
进程不是一直运行的,一个进程至少具备五种基本状态,即创建状态、运行状态、就绪状态、阻塞状态、结束状态。
大模型幻觉是指大型语言模型(LLMs)生成的内容与现实世界事实或用户输入不一致的现象。这种现象可以分为两大类:
Next Token Prediction的方式进行预训练, 因此,它只能保证文本生成的流畅性,而无法辨别所遇到的信息是否真实或准确。