概要
在本文中,我们解决了 Segment Anything Model (SAM) 的图像分辨率变化挑战。SAM 以其零样本泛化性而闻名,当面对具有不同图像大小的数据集时,性能会下降。以前的方法倾向于将图像大小调整为固定大小或采用结构修改,这阻碍了 SAM 丰富的先验知识的保存。此外,这种特定于任务的优化需要对模型进行完全的重新训练,这成本高昂,并且无法接受在下游任务中部署。 在本文中,我们将这个问题重新表述为长度外推问题,其中标记序列长度变化,同时为不同大小的图像保持一致的补丁大小。为此,我们提出了可扩展偏置模式注意力掩码 (BA-SAM),以增强 SAM 对不同图像分辨率的适应性,同时无需修改结构。首先,我们引入了一个新的缩放因子,以确保当标记序列长度发生变化时,注意力层的点积值的大小一致。其次,我们提出了一个偏差模式注意力掩码,允许每个标记优先考虑相邻信息,减轻未经训练的远程信息的影响。 我们的 BA-SAM 在两种情况下表现出疗效:零注射和微调。对各种数据集(包括 DIS5K、DUTS、ISIC、COD10K 和 COCO)的广泛评估表明,它能够在零样本设置中显著缓解性能下降,并以最少的微调实现最先进的性能。此外,我们提出了一个广义模型和基准,同时展示了 BA-SAM 在所有四个数据集中的泛化性。
图 1:返回页首:先前方法之间的对比[81,4]和 BA-SAM。对于大规模数据集,以前的方法通常会调整图像大小或更改补丁大小,以处理分辨率变化的问题。相比之下,我们提出了一种可扩展的偏置模式注意力掩码 (BA-SAM),它增强了 SAM 对不同图像分辨率的适应性,同时消除了结构修改。下(左):我们介绍了一个广义模型,该模型在四个数据集中的性能优于最先进的方法。 下图(右):由于分辨率变化,先前模型的性能会急剧下降。相反,BA-SAM 始终缓解了这个问题(评估指标是 MAE)。
1介绍
最近,计算机视觉社区[29,66,28,9,75,26,87,86,88,85,89,90,91,30,92,22,58,50,49,93]经历了各种基础模型开发的激增[54,33,21].值得注意的是,Meta 推出了 SAM(Segment Anything Model)[36],这是一个产生重大影响的提示模型。SAM 可以通过合并单个视觉提示(例如框或点)来分割图像或视频中的任何对象,而无需额外的培训。 SAM 在广泛的 SA-1B 数据集上进行训练[36],由超过 1100 万张图像和 10 亿个蒙版组成。不可否认,它的出现展示了跨不同图像和对象的强大泛化能力,为智能图像分析和理解的新可能性和途径铺平了道路[78,8,81,32].基于 SAM,已经提出了一些变体,例如 MobileSAM[78]和 SAM 适配器[8].这些工作通常侧重于提高 SAM 在特定数据集上的性能。
在 SAM 的预训练期间[36],则输入图像大小固定为 1024。作为基础模型,SAM 有望在各种下游任务中表现出泛化能力,每个任务都与具有不同图像大小的数据集相关联。这对于具有更大维度和更多细节特征的高分辨率 (HQ) 数据集尤其重要。 当分辨率与其训练分辨率 1024 一致时,SAM 表现良好。但是,当使用大于 1024 的分辨率进行推理时,会观察到性能显著下降。因此,我们的目标是研究一个实际和现实的问题,以增强SAM对不同数据集的不同图像分辨率的适应性。
由于 SAM 采用标准的 Vision Transformer[14]架构中,有两种常见的方法可以解决 ViT 架构的训练大小和推理大小之间的不一致。如图 1 所示。1、第一种方法,例如 MSA[81]和 SAM 适配器[8],涉及直接调整所有数据集的大小以匹配预定义的大小。 相反,第二种方法,以 FlexiViT 为例[4]需要调整面片大小以适应更大的图像分辨率。然而,调整映像或补丁大小需要对模型进行完全的重新训练,这成本高昂,并且无法接受在下游任务中部署。此外,它 阻止利用 SAM 的预训练模型中保留的丰富先验知识。 因此,我们的目标是探索一种解决方案,既能增强 SAM 对不同分辨率数据集的适应性,又能避免对 SAM 进行结构修改。
在本文中,我们引入了一种新的视角,将图像分辨率变化的挑战重新定义为长度外推问题。具体来说,如图 1 所示。1,对于不同大小的图像,我们采用不同的 token 序列长度,同时保持一致的 patch 大小。 据观察,训练和预测之间标记长度的不一致是性能下降的一个关键因素。这种不一致表现在两个方面: 首先,标记长度的变化导致注意力模块值的大小发生变化。当点积结果的幅度变得非常大时,它可以将后续的 Softmax 层驱动到梯度最小的区域。因此,Softmax 之后的注意力分布变得高度集中,从而引发了梯度消失的问题。 其次,较长的预测依赖于未经训练的信息,例如额外的位置编码。引入未经训练的参数会给模型带来大量的噪声,这反过来又会影响其性能。
为了解决这些问题,我们提出了一种可扩展偏置模式注意力掩码 (BA-SAM) 来增强 SAM 的长度外推能力。我们的方法引入了两种新颖的设计。 首先,为了确保注意力层点积值的一致性,我们提出了一个改进的缩放因子。此因子有效地调节了注意力层中值的大小,减轻了点积操作和上下文长度的重大变化导致的破坏性影响。 其次,为了保持注意力焦点领域的一致性,我们引入了一种新的偏差模式注意力掩码。这种注意力掩码会惩罚遥远的查询键对之间的注意力分数,随着键和查询之间距离的增加,惩罚也会增加。因此,当上下文长度变化时,未经训练的远程信息对每个标记的影响会减弱。我们通过在查询键点积后添加偏差来实现这个掩码,这种设计是高度轻量级的,可以无缝集成到基于 SAM 的模型中,计算开销最小。
我们的方法在两种情况下证明了疗效:零喷射和微调。对来自 DIS5K 的 5 个不同任务的数据集进行了广泛的评估[53]、DUTS[64]、国际标准行业分类 (ISIC)[12]、COD10K[16]和 COCO[45].这些数据集的分辨率各不相同,大多超过了 SAM 的默认分辨率 1024。 在零镜头设置中,我们的 BA-SAM 减轻了因扩展推理分辨率而导致的模型性能下降,而无需任何额外的训练。通过对下游任务进行一些微调 epoch,我们的 BA-SAM 在所有数据集中始终如一地实现最先进的准确性。 此外,为了进一步证明 BA-SAM 的通用性,我们提出了一个广义模型和一个新的基准,它们利用一个模型同时在所有四个数据集中获得最先进的性能。
2相关工作
Visual Foundation 模型。经过广泛训练并且可以适应许多下游任务的模型称为“基础模型”[5,67,43,40,72,77,84,41].这些模型,视觉语言模型 (VLM) (CLIP[54]和 DALL-E[55]) 将计算机视觉和自然语言处理相结合,以理解和生成描述,或使用文本和视觉信息分析视觉内容。蒙版图像建模[74,48](MIM) 在训练过程中屏蔽图像的某些部分,以鼓励模型学习上下文信息并完成缺失的区域。山 姆[36]是一种用于分割图像中的对象或区域的模型,可提供精确的分割功能。 我们使用一种称为 MobileSAM 的 SAM 变体[78]作为基线方法。
图 2:拟议的 BA-SAM 方法的图示。
(a) 在原始 SAM 中,当输入令牌序列长度在测试期间发生变化时,Softmax 输出的大小会发生巨大变化。我们提出了一种新的比例因子来解决这个问题。
(b) 我们引入了一个偏差模式的注意力掩码,随着查询和键之间的距离的增加,它对注意力分数的惩罚越来越大。
分辨率变化处理。为了使模型能够更好地适应分辨率的变化,处理 VIT 的传统方法依赖于对位置嵌入的调整[38]和补丁大小[4,6,24,76,44,29,37].补丁与包装[13]在训练期间采用序列打包来处理具有任意分辨率和纵横比的输入。所有这些都需要从头开始训练,从而产生大量的计算和时间成本。与以前的方法相比,我们将长度外推的概念从 NLP 扩展到解决 CV 中的尺度变化的上下文中。长度外推是指模型能够很好地推广到比训练时更长的输入的能力。在 NLP 中,它已成功使用,例如在 ALIBI 中[52]和 KERPLE[11],使模型能够适应更长的序列,而不会显著降低性能。我们的方法无缝扩展到两种情况:零镜头和微调,使我们能够利用 SAM 中嵌入的先验知识并显著减少培训工作。
参数高效调优。视觉模型的参数高效调整 (PEFT) 已经有一些开创性的工作,例如 AdaptFormer[7]和视觉提示调优 (VPT)[34].他等人。[27]分析了 prefixtuning 等 PETL 技术之间的统一视图[42]、 提示调优[34]和 adapter[7].我们的方法属于 Parameter Efficient Tuning 的类别。
视觉注意力建模。各种研究已将注意力机制纳入为视觉任务设计的神经网络架构中[63,68,39,3,31,96].这些机制以通道方式用于捕获跨特征信息[66,10,82].它们还用于选择网络不同分支中的路径[61]或两种策略的组合[80]. Transformer 的出现导致了集成其他模块的混合架构。Bello 的工作[2]引入了带有位置注意力组件的近似内容注意力。Child 等人。 [69]观察到网络中的许多早期层学习类似于卷积的局部连接模式,这表明受 transformer 和卷积网络启发的混合架构是一个引人注目的设计选择。最近的几项研究探讨了这种方法用于各种任务[59,70,65,25]. 与之前的工作相比,我们没有引入新的注意力结构。相反,我们为优化现有的注意力机制提供了理论证明。这种由此产生的优化方法适用于各种注意力设计,并在多个数据集中表现出强大的性能。
3预赛
山 姆。Segment Anything 模型 (SAM)[36]由三个核心模块组成:Image Encoder、Prompt Encoder 和 Mask Decoder。 它已在 SA-1B 数据集上进行了训练[36],其中包含超过 10 亿个自动生成的掩码。 因此,SAM 对新数据表现出有价值且稳健的零样本泛化,而无需进一步训练。更多详情可参考[36].我们的可扩展偏置模式注意力掩码 (BA-SAM) 将优化重点放在图像编码器上,同时保持掩码解码器和提示编码器的结构不变。
变压器中的注意。在这项工作中,我们定义了图像补丁的输入序列,𝐱=(𝐱1,…,𝐱n)带 lengthN哪里𝐱我∈ℝdx.q我,kj,vj的计算方式为𝐱我𝐖Q,𝐱j𝐖K,𝐱j𝐖V.在这里,投影𝐖Q,𝐖K,𝐖V∈ℝdx×dk是参数矩阵。
(i) 缩放因子。最常用的两个注意力函数是加法注意力[1]和点积注意力[62]. 原版 Transformer 选择 dot-product attention 是因为其在实践中的空间效率。但是,对于较大的dk时,点积的量级会变大,从而将 Softmax 函数推入梯度最小的区域。他们使用比例因子 λd=1dk缩放点积,其中dk表示尺寸。为了更好地分析比例因子的作用,我们表示 output element𝐎我和权重系数一个我,j如下:
哪里λd表示缩放因子。
(ii) 绝对和相对位置编码。最初的 Transformer[62]包含绝对非参数位置编码p=(p1,…,pn)跟x如x我=x我+p我.其他作品用参数编码取代了它们[23]或采用基于 Fourier 的内核版本[51].绝对位置编码对输入强制使用固定大小。近期工作[56]考虑元素之间的成对关系,它对输入之间的相对位置进行编码x我和xj到 Vector 中p我,jv,p我,jq,p我,jk∈Rdk.然后,我们将方程 (1) 重新表述如下:
哪里p我,jv,p我,jq,p我,jk是在训练中学到的。
4方法论
基于初步分析,我们进一步分析了 SAM 的特性:原始 SAM 将输入设置为固定分辨率 1024,其中它使用绝对位置编码和点积。因此,在处理长度外推问题时存在很大的限制。为了解决这个问题,如图 1 所示。如图 2 所示,我们提出了一种可扩展偏置模式注意力掩码 (BA-SAM)。在第 4.1 节中,我们对原始 Transformer 中使用的缩放因子进行了理论解释,并引入了一个新的缩放因子来调节由长度外推引起的幅度不一致。在第 4.2 节中,我们设计了一个偏差模式注意力掩码,将更多精力放在相邻的标记上,从而减轻未经训练的远程信息的影响。 最后,我们在第 4.3 节中解释了如何将 BA-SAM 嵌入到基于 SAM 的结构中。
4.1新缩放因子
我们观察到,在 SAM 的原始注意力模块中[62]当点积的幅度变得非常大时,它可以将 Softmax 层驱动到梯度最小的区域。这是因为 Softmax 之后的注意力分布变得高度集中,从而产生了梯度消失的问题。 仔细研究方程(1)后,很明显q⋅k该术语与标记序列长度有着内在的联系N和维度dk. 当 token 序列长度N和维度dk显着提高,则注意力的整体效能受到影响,从而导致性能明显下降。
为了解决这个问题,我们尝试设计一个新的比例因子,使模型能够应对N和dk.什么时候N或dk显着增长,我们期望调节 attention 层内值的幅度,保持相似的幅度。[62]引入了比例因子λ=1dk抵消由于 Dot 积引起的幅度大幅增长的影响。下面我们将提供这个比例因子的理论推导,然后详细说明我们提出的新比例因子。
维度dk. 后续工作[62],我们假设q和k是均值为 0 且方差为 1 的独立随机变量。的平均值q⋅k是:
同样,我们将q⋅k如下:
鉴于此,我们大约可以考虑q⋅k值在−3dk自3dk,根据高斯分布的性质。对于较大的模型,dk通常为较大的正值,从而导致q⋅k,相比之下,加法注意力选项的范围为[−3,3].因此,Softmax 之后的注意力分布变得高度集中。 这会导致严重的梯度消失,从而阻碍训练的有效性,并可能导致不太理想的表现。 由于q⋅k值位于[−3dk,3dk],比例因子可以简单地定义为λd=1dk,以保持相似的量级。
我们的新缩放因子。我们已经提供了对原始比例因子设计方式的解释。现在,我们解释新缩放因子的设计。
根据方程 4 和方程 5,尺度q⋅k已与 Additive 关注 一致λd,可以看作是一个我,j独立于dk. 我们简化λdq我⋅kj到x我,j并进一步讨论长度的影响N上一个我,j.
在方程 1 中,一个我,j可以看作是具有我作为 condition 和j作为随机变量。灵感来源[60],我们引入信息熵来约束一个我,j.具体来说,熵是不确定性的度量,我们预计一个我,j对长度不敏感N (即每个一个我,j当 token 增加时,会发生变化,但总体一个我,j可以保持相对稳定)。 的熵一个我,j是:ℋ我=−∑j=1N一个我,j日志一个我,j我们代入方程 (1):
然后,我们将近似估计值代入方程 (6):
我们希望使用λn以抵消N上ℋ我.然后,我们得到以下结果:
哪里k是参数值。我们将训练期间的标记序列长度表示为Ntr一个我n,测试期间的 Token 序列长度为Ntest哪里Ntest>>Ntr一个我n.什么时候N=Ntr一个我n,λn=1(与训练长度一致)。因此,k=日志Ntr一个我n最后,我们有了λn=logNtr一个我nNtest. 考虑到两者λd和λn,我们最终可以推导出新的比例因子为:
我们在方程 (9) 中的新比例因子确保了注意力计算保持一致,无论dk和N.它将增强模型的外推能力。
4.2Bias-Mode 注意力遮罩
另一个挑战是令牌序列长度的变化将导致位置编码的变化。在测试过程中发生此类位置编码变化时,确保模型的不敏感非常重要。
一种可能的方法是没有可训练参数的绝对编码,例如 Sinusoidal[62].它要求位置编码具有强大的本地到全局推理功能。 尽管如此,这假设给定的函数具有高阶平滑度(存在高阶导数并且是有界的)。常用的位置编码通常与三角函数结合使用 这些方法无法满足有界高阶导数的要求,因此估计外推结果的准确性较低。另一种可能的方法是利用本地关注[47],它限制了模型的视野,并且对标记序列长度的变化不敏感。但是,本地注意力通常使用本地窗口实现,因此需要修改 SAM 结构,这需要从头开始重新训练,并且无法接受部署 在下游任务中。
为此,我们建议使 attention 层能够更多地关注当前 Token 的相邻 token。 因此,即使 token 序列的长度增加,每个 token 也几乎不会受到来自远距离位置的未训练 token 的影响。 特别是,我们设计了一个简单而有效的偏置模式掩码。我们在 query-key 点积之后引入了偏差。
如图 1 所示。3,则此掩码表现出在查询键对之间的距离上指定的偏差(即q⋅k).我们预计这个提议的掩码会对遥远的查询键对之间的注意力分数施加惩罚,并且惩罚会随着键之间的距离而增加q和一个查询k增长。为此,我们简单地将偏差定义为bi,j=β|i−j|.
哪里β是特定于头部的坡度。
我们进一步讨论β根据不同的情况。当进行零样本泛化而不进行微调时,我们设置β设置为静态的、未学习的固定值。 实验部分将讨论特定的值设置(第 5 节)。当需要微调时,我们制作β可训练的。 由于我们的 Bias-Mode Attention Mask 相对于模型结构来说是轻量级的,因此它产生的训练成本开销可以忽略不计。
图 3:将我们的 BA-SAM 嵌入到 SAM 主干网中。NSF 表示我们新的缩放因子,BM-AM 表示我们设计的偏置模式注意力掩码。
图 4:我们的 BA-SAM 在皮肤损伤分割、显著物体分割、复杂物体分割、伪装物体检测这四个物体分割任务上的可视化结果,对应四个数据集: 国际标准产业分类 (ISIC)[12]、DUTS[64]、DIS-TE4[53]和 COD10K[16].我们的 BA-SAM 可以在不同的任务中准确处理不同图像分辨率和分段的问题。
4.3BA-SAM 模型
如图 1 所示。3、我们的 BA-SAM 易于实施,并且可以无缝集成到 SAM 中[36]及其变体。具体来说,我们的设计涉及注意力层的新比例因子 (NSF) 和偏置模式注意力掩码 (BM-AM)。我们的方法不涉及对模型结构的任何更改,适用于微调和非微调情况。对于微调情况,它带来的计算开销可以忽略不计,因为 BM-AM 产生的计算量非常小。
5实验
表 1:不同图像分辨率下的性能比较。我们采用了广泛使用的 MAE (平均绝对误差) 评分。MAE 分数越低表示模型性能越好。Δdiff 表示由于分辨率更改而导致的性能下降。与 SAM 相比[36]和 MobileSAM[78]基线,我们提出的 BA-SAM 在遇到令牌序列长度变化时实现了更小的降解。最佳 MAE 性能以粗体突出显示,最小性能下降以下划线突出显示。
5.1数据集和实施
数据。为了对 BA-SAM 进行全面评估,我们对广泛的分割任务进行了广泛的实验,即突出目标分割[18,15,20]、复杂对象分割[19]、 皮损分割[96]、伪装物体检测[17],它们对应于四个数据集:DUTS[64]、DIS-TE4[53]、国际标准行业分类 (ISIC)[12]和 COD10K[16].此外,我们在具有挑战性的 COCO 上验证它[45]实例分段基准测试。更多详细信息请参阅补充材料。
实现细节。在不需要微调的零镜头设置中,我们使用原始的 SAM[36]骨干。对于微调方案,我们使用 MobileSAM[78]作为主干。移动SAM[78]是一种 SAM 变体,其结构类似于 ViT-Tiny[73],更多详细信息可以在[78].移动SAM[78]使用基于 ViT-H 的 SAM 作为蒸馏的教师网络,最终实现了与原始 SAM 相比具有竞争力的准确性,但参数明显减少。 对于各种对象分割任务,在微调阶段,从地面实况中提取一个随机点作为提示输入。 对于实例分割,我们使用 ViT-B[14]backbone 和最先进的探测器 Deformable-DETR[94]在 COCO 上接受培训[45]数据集与 Swin-L[47]backbone 作为 box prompt 生成器。补充材料中提供了更多详细信息。
评估指标。在实验中,我们使用广泛使用的平均绝对误差 (MAE) 和平均精度 (AP) 进行评估。较低的 MAE 分数和较高的 AP 分数表示模型性能越好。
5.2结果
各种对象分割任务的结果:表 1 展示了我们的方法在四个不同的分割数据集中的有效性。Δdiff 表示推理过程中由于分辨率变化而导致的性能下降的值。表格的上部和下部表示没有微调和有微调的结果。最佳 MAE 性能以粗体突出显示,最小的降级以下划线突出显示。我们有三个观察结果:首先,我们提出的 BA-SAM 始终优于 SAM[36]和 MobileSAM[78]所有四个数据集上的基线。这主要是因为这些基线没有考虑图像分辨率变化的问题。相比之下,我们提出的 Scaling factor 和 bias-mode 注意力掩码明确地处理了这个问题,并进一步缓解了性能下降。其次,当在比训练大小更高的分辨率上进行测试时,SAM[36]和 MobileSAM[78]基线显示的结果不如原始图像大小理想。相比之下,我们的 BA-SAM 在不同数据集中发生的性能下降要小得多。 第三,在实验过程中,我们观察到计算开销可以忽略不计,无论是否应用微调,这都支持了方法部分的说法。有关详细信息,请参阅第 5.3 节。
实例分割的结果:在表 3 中,我们评估了该方法在 COCO 上的性能[45]实例分段基准测试。为了公平地进行比较,所有实验都以零镜头方式进行,对比较方法使用相同的初始化参数,并且没有使用任何额外的训练数据。我们的 BA-SAM 始终优于 SAM[36]和 MobileSAM[78]baselines,在实例分割上展示了更好的 Zero shot 泛化能力。
与最先进的方法的比较:为了进一步证明我们方法的有效性和普遍性的优越性,我们比较了表 2 中最先进的方法。从表中,我们有以下两个观察结果: 首先,所有最先进的方法[57,79,46,95,83,53,35,16]在每个数据集中显示不太理想的性能。相反,我们的 BA-SAM(专业模型)在每个下游数据集上进行微调时,性能始终优于这些方法。其次,几乎所有这些最先进的技术都是专门为一项任务设计的,不能很好地推广到其他任务。由于 SAM 强大的零样本泛化能力[36],我们提出的 BA-SAM 也可以用作广义模型,在一个统一和共享的模型中与所有这些下游数据集进行微调。重要的是,与[46,57,79,12],我们无需采用其他技术来进一步提高性能。如表 2 所示,我们的广义模型在所有数据集上也始终如一地提升 SAM 的性能,展示了其非凡的泛化性。
5.3消融研究与分析
在本节中,我们首先进行消融研究以研究 每个组件的贡献。然后,我们进行调查 新比例因子 (NSF) 和偏置模式注意力掩码 (BM-AM) 的影响与更详细的分析。
每个组件的消融研究。表 4 分别总结了每个设计组件对有和没有微调的设置的影响。基准是指使用 MobileSAM[78]作为在注意力层中使用 vanilla 缩放因子 (VSF) 的基础网络[62].New Scaling Factor 和 Bias-Mode Attention Mask 分别缩写为 NSF 和 BM-AM。 从表中,我们观察到 NSF 可以实现比 VSF 基线更好的性能。这是因为 SAM 中的原版注意力[36]和 MobileSAM[78]当 Softmax 输出由于测试期间输入分辨率变化而发生剧烈变化时,不考虑保持幅度一致性。相比之下,我们的 NSF 明确地保持了幅度的一致性并减轻了性能下降。此外,通过添加 BM-AM,在外推到更大的测试长度时,性能可以进一步提高。 这些改进证实了这些单独的组件是互补的 它们共同显著促进了性能。
表 2:将结果(MAE)与最先进的专业模型进行各种分割任务的比较。
表 3:COCO 上的结果 (AP)[45]实例分段。
斜率对 Bias-Mode 注意力掩码的影响。 在 Bias-Mode Attention Mask 中,斜率的大小β确定不同 HEAD 的罚款率。 我们发现,在以下情况下可实现最佳性能β=0.1.此外 我们的方法对不同的斜率选择是稳健的。在零点情况下,我们使用固定斜率β=1默认情况下。(更多细节可在补充材料中参考)
计算效率。在表 5 中,我们分析了基线和 BA-SAM 之间的计算效率。 所有实验均在同一个 NVIDIA RTX 4090GPU 上进行,以确保公平的比较。 从表中可以看出,我们的 BA-SAM 非常轻量级,对模型的计算开销可以忽略不计。原因在于两个方面:首先,NSF 表现出与原版 NSF 几乎相同的计算复杂性。此外,在应用 Softmax 操作之前,通过在查询键点积中添加掩码矩阵来无缝整合 BM-AM。尽管内存使用量略有增加,但与大型模型占用的内存相比,它仍然可以忽略不计。
表 4:在有和没有微调的情况下对设置中的每个组件进行消融研究。数字表示性能下降,Δ差异。一个 更低Δdiff 意味着更好的性能。
表 5:基线与我们的 BA-SAM 之间的计算效率比较。Params:参数个数。Speed:推理速度。上半部分在零点设置下执行,下半部分是微调场景。
6结论
在本文中,我们通过将 SAM 模型中图像分辨率变化的重要问题重新表述为长度外推问题来解决它。为了增强 SAM 的长度外推能力,我们提出了可扩展偏置模式注意力掩码 (BA-SAM) SAM。引入了新的缩放因子 (NSF) 以保持一致的关注量级。此外,偏置模式注意力掩码 (BM-AM) 旨在优先考虑相邻信息,减轻未经训练的远程信息的影响。 对不同数据集的广泛评估表明,它能够显著缓解零样本设置下的性能下降,并以最少的微调实现最先进的性能。此外,我们提出了一个广义模型和基准,展示了 BA-SAM 在所有四个数据集中的泛化性。