-
核心论文
- 原论文标题:《Attention Is All You Need》(Transformer原始论文)
-
Transformer学习资源
- 视频教程:
- B站中文视频:Transformer详解
- 中文教程:
- GitHub项目:learn-nlp-with-transformers
- 技术解析:
- 图解Transformer(Encoder-Decoder结构):Illustrated Transformer
- 图解GPT模型:Illustrated GPT-2
- 趣味实践:
- Tom Yeh教授的Excel手绘神经网络:AI-by-Hand-exercises
- 视频教程:
关于Q、K、V的理解
在Transformer模型中,Q、K、V分别代表Query(查询)、Key(键/线索)和Value(值/答案)。它们是自注意力机制(Self-Attention Mechanism)中的核心组成部分,用于计算输入序列中各个元素之间的相关性。
- Query (Q):查询向量,用于表示当前需要关注的元素。可以理解为“我想要找什么”。
- Key (K):键向量,用于表示其他元素的特征。可以理解为“其他元素能提供什么信息”。
- Value (V):值向量,用于表示其他元素的实际内容。可以理解为“其他元素具体是什么”。
在自注意力机制中,首先通过线性变换将输入矩阵X分别转换为Q、K、V。然后,通过计算Q和K的点积(Dot-Product)来得到注意力分数,这些分数表示当前元素与其他元素的相关性。最后,使用这些分数对V进行加权求和,得到最终的输出。