1. ViT的诞生背景与核心思想
Vision Transformer (ViT) 是2020年由Google Research团队提出的一种革命性计算机视觉架构,它将自然语言处理(NLP)领域中大获成功的Transformer模型引入到计算机视觉任务中。这一创新彻底改变了传统卷积神经网络(CNN)在视觉任务中的主导地位,为图像处理开辟了新的方向。
1.1 传统CNN的局限性
在ViT出现之前,卷积神经网络(CNN)长期统治着计算机视觉领域。CNN通过局部感受野、权重共享和空间下采样等机制,能够有效捕捉图像的局部特征。
然而,CNN也存在一些固有局限:
-
长距离依赖建模困难:CNN通过堆叠卷积层逐步扩大感受野来捕获全局信息,但这种间接的方式效率较低
-
归纳偏置过强:平移不变性等先验假设在某些场景下可能成为限制