跳至主要內容

注意力机制 和 Transformer

pptg小于 1 分钟

1. 注意力机制

非参注意力池化层

Nadaraya-Watson核回归

https://www.bilibili.com/video/BV1xoW4zaEke/?spm_id_from=333.1387.favlist.content.click&vd_source=981e3c11cfc628a411ae06b92a0546e9

Q: 查询向量,当前Token关注什么 K: 键向量,当前Token能给其它Token提供什么信息 V: 值向量,这个词实际包含的信息内容

多头注意力机制

2. Transformer

  1. 将输入经过分词工具拆分为最小的语义单位Token,每个Token会被编码为512维的向量。
  2. 因此词向量是同时输入模型的,所以需要给词向量加入位置编码来表示词的相对顺序。