- 作者:Yue Zhou 1 ^{1} 1, Ran Ding 1 ^{1} 1, Xue Yang 2 ^{2} 2, Xue Jiang 1 ^{1} 1, Xingzhao Liu 1 ^{1} 1
- 单位: 1 ^{1} 1上海交通大学电子工程系, 2 ^{2} 2上海交通大学自动化系
- 论文标题:AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval
- 论文链接:https://ieeexplore.ieee.org/document/11006099
- 代码链接:https://github.com/VisionXLab/AirSpatialBot
- 出版信息:IEEE Transactions on Geoscience and Remote Sensing 2025
主要贡献
- 提出 AirSpatial 数据集:该数据集包含超过 206K 指令,涵盖两项新任务:空间定位(Spatial Grounding)和空间问答(Spatial Question Answering),是首个提供 3D 边界框(3DBB)的遥感定位数据集,为空间理解在遥感视觉语言模型(VLMs)中的应用奠定了基础。
- 设计两阶段训练策略:通过图像理解预训练和空间理解微调,利用辅助监督学习(ASL)促进从 2D 到 3D 的知识迁移,并引入几何映射学习(GML)确保 3D 空间一致性,从而构建出具有初步空间感知能力的遥感 VLM。
- 开发 AirSpatialBot 空中智能体:基于空间感知 VLM,能够进行细粒度车辆属性识别(品牌、型号、动力系统、价格等)和检索,通过动态整合任务规划、图像理解、空间理解和任务执行能力,适应多样化的查询需求,是首个能够从航拍图像中识别车辆品牌、型号和定价信息的方法。
- 实验验证有效性:通过实验验证了该方法的有效性,揭示了现有 VLMs 在空间理解方面的局限性,并为未来研究提供了有价值的见解。
研究背景
- 遥感视觉语言模型(VLMs)在图像理解方面取得了显著进展,但在空间关系理解方面存在不足,限制了其在现实世界中的应用。
- 空间理解能力对于无人机基础智能和视觉语言导航等应用至关重要,但现有 VLMs 在遥感领域的空间理解能力尚未得到充分探索。
相关工作
- 遥感视觉定位(RSVG):现有的 RSVG 数据集主要提供 2D 位置信号(如水平边界框 HBB 或定向边界框 OBB),但缺乏对模型空间理解能力的考察。本文提出的 AirSpatial-G 是首个提供 3DBB 的 RSVG 数据集。
- 遥感视觉问答(RSVQA):现有的 RSVQA 数据集主要关注视觉感知,缺乏对空间关系的明确考察。本文提出的 AirSpatial-QA 是首个明确包含空中目标三维空间关系的 RSVQA 数据集。
- 空间感知 VLMs:现有研究主要集中在自主智能和自动驾驶领域,但对遥感场景中的独特挑战(如细粒度目标识别和检索)关注不足。本文提出了首个能够支持空间定位和空间问答任务的遥感 VLM。
AIRSPATIAL数据集
论文中提出了 AirSpatial 数据集,包含两个子数据集:AirSpatial-G 和 AirSpatial-QA,以及一个基准测试集 AirSpatial-Bench。这些数据集的设计旨在提升遥感视觉语言模型(VLMs)的空间理解能力。
AirSpatial-G
目标
为空间定位(Spatial Grounding)任务提供数据支持,将视觉定位从 2D 扩展到 3D。
数据规模
包含 80,497 张图像,分为 66,000 张训练图像和 14,000 张测试图像。
标注信息
- 每张图像包含一个目标对象的标注,标注格式包括三种边界框:
- 水平边界框(HBB):2D 平面上的矩形框。
- 定向边界框(OBB):2D 平面上的旋转矩形框。
- 3D 边界框(3DBB):目标在 3D 空间中的位置和尺寸。
- 提供五种查询模板,用于描述目标对象的空间位置(如绝对尺寸、相对尺寸、绝对距离、相对距离等)。
特点
是首个提供 3D 边界框(3DBB) 的遥感视觉定位数据集,能够有效支持模型从 2D 图像平面到 3D 空间场景的理解。
AirSpatial-QA
目标
为空间问答(Spatial Question Answering)任务提供数据支持,提升模型对目标 3D 尺寸和空间关系的理解。
数据规模
包含 126,006 张图像,分为 108,000 张训练图像和 17,000 张测试图像。
标注信息
- 每张图像包含一个目标对象的标注,标注内容包括目标的 3D 尺寸(长度、宽度、高度)、空间距离(与相机的距离)等信息。
- 提供五种任务类型的问题模板,例如:
- 估计目标的深度(Depth)。
- 估计目标与相机的距离(Distance)。
- 估计目标的长度、宽度和高度(Length, Width, Height)。
- 回答的正确性通过与真实值(Ground Truth)的误差范围(5%)来判断。
特点
是首个明确包含目标 三维空间关系 的遥感视觉问答数据集,能够有效提升模型对空间尺度的理解。
AirSpatial-Bench
- 目标:为车辆属性识别和检索任务提供基准测试,验证模型在实际应用中的性能。
- 任务设计:
- 车辆属性识别:用户提供车辆在图像中的 2D 位置,模型需要识别车辆的属性(如品牌、型号、动力系统、价格等)。
- 车辆检索:用户提供车辆的品牌和型号信息,模型需要从 3D 场景中定位目标车辆,并输出其在图像中的 2D 位置和 3D 位置。
- 数据规模:包含 934 个车辆属性识别问题和 839 个车辆检索问题。
- 特点:要求模型具备任务规划、图像理解、空间理解等综合能力,具有较高的应用价值和挑战性。
空间感知视觉语言模型
架构设计
- 视觉编码器:
- 负责将输入的航拍图像转换为紧凑的视觉表示。
- 通常基于卷积神经网络(CNN)或 Transformer 架构,能够提取图像中的视觉特征。
- 投影层:
- 作为视觉模块和语言模块之间的桥梁,将视觉特征映射到与语言特征相同的语义空间。
- 通过学习视觉特征和语言特征之间的对应关系,使模型能够更好地理解图像和文本之间的关联。
- 大语言模型:
- 负责整合视觉信息和文本信息,执行推理任务。
- 能够处理复杂的语言指令,并结合视觉特征进行目标定位、属性识别等任务。
两阶段训练策略
为了充分利用现有的 2D 数据并提升模型的空间理解能力,论文提出了两阶段训练策略:
第一阶段:图像理解预训练
- 目标:利用现有的 2D 遥感视觉定位数据集和目标检测数据,对模型进行预训练,使其能够理解遥感图像中的细节。
- 数据来源:整合了多个现有的 2D 遥感视觉定位数据集(如 RSVG、DIOR-RSVG 等),以及从 DOTA、DIOR、FAIR1M 等数据集中生成的目标检测样本。
- 训练过程:
- 训练样本对表示为 ( I i , x i , p i 2 D ) (I_i, x_i, p^{2D}_i) (Ii,xi,pi2D),其中 I i I_i Ii 是图像, x i x_i xi 是文本描述, p i 2 D p^{2D}_i pi2D 是目标在 2D 图像平面上的位置(HBB 或 OBB)。
- 使用监督微调(SFT)方法,以负对数似然损失函数进行训练,优化模型对 2D 目标位置的预测能力:
L phase1 = − ∑ ( I i , x i , p i 2 D ) ∈ D 2 D log M ( y 2 D ∣ x i , I i ) \mathcal{L}_{\text{phase1}} = - \sum_{(I_i, x_i, p^{2D}_i) \in \mathcal{D}^{2D}} \log M(y^{2D} | x_i, I_i) Lphase1=−(Ii,xi,pi2D)∈D2D∑logM(y2D∣xi,Ii)
其中, y 2 D y^{2D} y2D 是模型预测的 2D 位置。
第二阶段:空间理解微调
- 目标:利用少量同时标注有 2D 和 3D 信息的数据,对模型进行微调,使其能够理解目标在 3D 空间中的位置和尺寸。
- 数据来源:使用 AirSpatial 数据集中的标注数据,这些数据同时提供了目标的 2D 位置(HBB 或 OBB)和 3D 位置(3DBB)。
- 训练过程:
- 训练样本对表示为 ( I i , x i , p i 2 D , p i 3 D ) (I_i, x_i, p^{2D}_i, p^{3D}_i) (Ii,xi,pi2D,pi3D),其中 p i 3 D p^{3D}_i pi3D 是目标在 3D 空间中的位置。
- 设计了三种损失函数:
- 混合监督损失( L Mix \mathcal{L}_{\text{Mix}} LMix):
- 同时优化模型对 2D 和 3D 位置的预测能力:
L Mix = − ∑ ( I i , x i , p i 2 D , p i 3 D ) ∈ D 3 D ( log M ( y 2 D ∣ x i , I i ) + log M ( y 3 D ∣ x i , I i ) ) \mathcal{L}_{\text{Mix}} = - \sum_{(I_i, x_i, p^{2D}_i, p^{3D}_i) \in \mathcal{D}^{3D}} \left( \log M(y^{2D} | x_i, I_i) + \log M(y^{3D} | x_i, I_i) \right) LMix=−(Ii,xi,pi2D,pi3D)∈D3D∑(logM(y2D∣xi,Ii)+logM(y3D∣xi,Ii))
- 同时优化模型对 2D 和 3D 位置的预测能力:
- 辅助监督学习损失( L ASL \mathcal{L}_{\text{ASL}} LASL):
- 利用 2D 位置作为辅助信息,鼓励模型基于 2D 位置预测 3D 位置:
L ASL = − ∑ ( I i , x i , p i 2 D , p i 3 D ) ∈ D 3 D log M ( y 3 D ∣ x i , I i , y 2 D ) \mathcal{L}_{\text{ASL}} = - \sum_{(I_i, x_i, p^{2D}_i, p^{3D}_i) \in \mathcal{D}^{3D}} \log M(y^{3D} | x_i, I_i, y^{2D}) LASL=−(Ii,xi,pi2D,pi3D)∈D3D∑logM(y3D∣xi,Ii,y2D)
- 利用 2D 位置作为辅助信息,鼓励模型基于 2D 位置预测 3D 位置:
- 几何映射学习损失( L GML \mathcal{L}_{\text{GML}} LGML):
- 学习 3D 坐标与 2D 坐标之间的几何一致性,使模型能够将 3D 坐标映射回 2D 坐标:
L GML = − ∑ ( I i , x i , p i 2 D , p i 3 D ) ∈ D 3 D log M ( y 2 D ∣ x i , y 3 D ) \mathcal{L}_{\text{GML}} = - \sum_{(I_i, x_i, p^{2D}_i, p^{3D}_i) \in \mathcal{D}^{3D}} \log M(y^{2D} | x_i, y^{3D}) LGML=−(Ii,xi,pi2D,pi3D)∈D3D∑logM(y2D∣xi,y3D)
- 学习 3D 坐标与 2D 坐标之间的几何一致性,使模型能够将 3D 坐标映射回 2D 坐标:
- 最终的总损失函数为:
L phase2 = L Mix + L ASL + L GML \mathcal{L}_{\text{phase2}} = \mathcal{L}_{\text{Mix}} + \mathcal{L}_{\text{ASL}} + \mathcal{L}_{\text{GML}} Lphase2=LMix+LASL+LGML
通过这种训练策略,模型能够在有限的 3D 数据条件下最大化其空间理解能力。
空间感知空中智能体
基于空间感知 VLM 开发空中智能体,能够执行细粒度车辆属性识别和检索任务。其框架结合了任务规划、图像理解、空间理解和任务执行能力,能够根据用户的不同需求动态调整任务流程。
框架设计
核心组件
- 空间感知 VLM:负责图像和空间信息的理解,提供目标的 3D 位置和属性信息。
- 大语言模型(LLM):作为规划器(Planner)和总结器(Summarizer),负责生成任务计划和整合最终回答。
工作流程
任务规划
- 用户提出问题后,LLM 根据问题内容生成一个任务计划,计划中包含多个子任务(如图像理解、空间理解、信息检索等)。
- 例如,对于车辆属性识别任务,任务计划可能包括:
- 使用空间理解模块获取目标车辆的 3D 尺寸。
- 调用图像理解模块识别车辆的颜色和类型。
- 从数据库中检索车辆的品牌和型号信息。
任务执行
- 根据任务计划,空中智能体依次调用相应的模块执行每个子任务。
- 如果任务涉及图像或空间理解,智能体会调用空间感知 VLM 来处理图像和查询,生成相应的输出结果。
- 智能体将 VLM 的输出结果用于后续任务的执行。
结果总结
- 所有子任务完成后,LLM 根据中间结果生成最终回答,并返回给用户。
- 例如,对于车辆检索任务,最终回答可能包括目标车辆在图像中的 2D 位置和 3D 位置信息。
任务示例
- 车辆属性识别:
- 用户提供车辆在图像中的 2D 位置,空中智能体通过图像理解模块识别车辆的颜色、类型等基本属性。
- 利用空间理解模块获取车辆的 3D 尺寸,并从数据库中检索车辆的品牌和型号信息。
- 最终返回车辆的详细属性信息,如品牌、型号、价格等。
- 零样本属性识别:
- 对于模型未见过的新车辆品牌和型号,空中智能体通过空间感知能力获取车辆的 3D 尺寸。
- 将车辆尺寸与数据库中的车辆参数表进行匹配,找到最接近的品牌和型号。
- 通过网络搜索获取车辆的动态信息(如价格),并返回给用户。
- 目标检索:
- 用户提供车辆的品牌和型号信息,空中智能体从数据库中检索目标车辆的 3D 尺寸。
- 利用空间理解模块在 3D 场景中定位目标车辆,并输出其在图像中的 2D 位置和 3D 位置。
- 最终返回目标车辆的位置信息,帮助用户快速找到车辆。
实验与分析
论文通过一系列实验验证了 AirSpatialBot 的性能,并与其他现有模型进行了对比分析。
实验设置
- 优化器:使用 AdamW 优化器,初始学习率为 2e-4,权重衰减为 0。
- 梯度裁剪:最大范数为 1.0。
- 学习率调度:采用线性衰减策略,预热比例为 0.03。
- LoRA 模块:应用于连接层和 LLM 的线性层,LoRA 排名为 64,alpha 值为 16,dropout 率为 0.05。
- 数值精度:采用 FP16。
- 全局批量大小:128。
- 训练周期:共 5 个 epoch。
- 硬件配置:在 8 块 NVIDIA V100 GPU 上进行训练。
实验结果与分析
空间定位任务
- 评估指标:使用 Acc@0.5(目标定位的准确率,当预测边界框与真实边界框的 IoU 大于 0.5 时认为预测正确)。
- 实验结果:
- 在 AirSpatial-G 数据集 上,AirSpatialBot 在所有空间定位子任务(绝对尺寸、相对尺寸、绝对距离、相对距离)上均取得了最高性能,但整体得分仍显示出这些任务的挑战性。例如,在绝对尺寸任务中,AirSpatialBot 的 Acc@0.5 为 6.23%,表明还有很大的提升空间。
- 在 其他 RSVG 基准数据集 上,AirSpatialBot 显著优于现有的 VLMs,平均准确率达到了 58.89%,为其第二阶段的 3D 知识迁移奠定了坚实基础。
- 分析:
- 绝对空间描述比相对描述更具挑战性,因为绝对描述需要模型对整个场景的尺度有更准确的理解。
- GeoChat(一个专门针对遥感应用的 VLM)在空间定位任务上的表现不如通用 VLMs,说明目前遥感领域的训练数据量和多样性还不足以赋予专用 VLMs 强大的泛化和空间推理能力。
空间问答任务
- 评估指标:使用均方根误差(RMSE)、平均绝对误差(MAE)和 R-squared(决定系数)。
- 实验结果:
- 在 AirSpatial-QA 数据集 上,AirSpatialBot 在所有三个评估指标上均显著优于其他四种 VLMs(InternVL2、Qwen-VL、Qwen2-VL 和 GeoChat)。具体数值如下:
- RMSE:216.19
- MAE:103.80
- R-squared:0.99
- 在五个细粒度任务(深度、距离、长度、宽度、高度)的 MAE 分数上,AirSpatialBot 也均优于其他模型。例如,在长度估计任务中,AirSpatialBot 的 MAE 为 210.66,而其他模型的 MAE 均超过 3000。
- 在 AirSpatial-QA 数据集 上,AirSpatialBot 在所有三个评估指标上均显著优于其他四种 VLMs(InternVL2、Qwen-VL、Qwen2-VL 和 GeoChat)。具体数值如下:
- 分析:
- AirSpatialBot 在空间问答任务上的优异表现表明其在理解目标 3D 尺寸和空间关系方面具有显著优势。
- 对于所有 VLMs,估计车辆尺寸(长度、宽度、高度)比估计深度和距离更具挑战性,这可能是因为车辆尺寸的变化范围较大,且需要更精确的 3D 空间感知能力。
- GeoChat 虽然在深度和距离估计任务中表现较好,但在车辆尺寸估计任务中表现较差,说明其空间理解能力存在局限性。
车辆属性识别与检索任务
- 评估指标:
- 车辆属性识别任务:使用准确率(Accuracy)。
- 车辆检索任务:使用 BEV IoU(鸟瞰图交并比),当预测的 3D 边界框与真实边界框的重叠度超过 0.25 时认为预测正确。
- 实验结果:
- 在 AirSpatial-Bench 基准测试 中,AirSpatialBot 在车辆属性识别任务上取得了最高平均分数(28.53%),并且是唯一支持车辆检索任务的 VLM。具体数值如下:
- 品牌识别准确率:7.84%
- 型号识别准确率:1.49%
- 动力系统识别准确率:78.95%
- 价格识别准确率:12.69%
- 门数识别准确率:41.67%
- 其他 VLMs 在车辆属性识别任务上的表现较差,例如 Qwen2-VL 在所有任务上的准确率均为 0%,说明现有模型缺乏从航拍图像中识别细粒度车辆属性的能力。
- 在 AirSpatial-Bench 基准测试 中,AirSpatialBot 在车辆属性识别任务上取得了最高平均分数(28.53%),并且是唯一支持车辆检索任务的 VLM。具体数值如下:
- 分析:
- AirSpatialBot 的优异表现归功于其空间感知能力和任务规划能力,使其能够准确识别车辆的细粒度属性并从 3D 场景中定位目标车辆。
- 现有 VLMs 在遥感图像中的细粒度目标识别任务上表现不佳,表明其在空间理解方面存在不足,无法有效利用 3D 空间信息进行目标识别和检索。
消融研究
- 空间感知 VLM 的改进过程:
- 通过 2D 预训练、多种信号监督(HBB、OBB 和 3DBB)、ASL 和 GML 的逐步引入,显著提升了空间定位任务的性能。具体数值如下:
- 仅使用 2D 预训练时,Acc@0.5 为 6.37%。
- 引入多种信号监督后,Acc@0.5 提升至 13.33%。
- 加入 GML 后,Acc@0.5 提升至 13.24%。
- 最终加入 ASL 后,Acc@0.5 提升至 15.51%。
- 这些改进措施验证了从 2D 到 3D 知识迁移的有效性,以及 ASL 和 GML 在提升空间理解能力方面的重要性。
- 通过 2D 预训练、多种信号监督(HBB、OBB 和 3DBB)、ASL 和 GML 的逐步引入,显著提升了空间定位任务的性能。具体数值如下:
- 不同 LLM 对性能的影响:
- 不使用额外 LLM 时,性能较差(准确率为 0%),说明仅依赖空间感知 VLM 进行任务规划的效果不佳。
- 使用 GPT-3.5-Turbo 时,车辆属性识别任务的平均准确率提升至 24.76%,车辆检索任务的准确率提升至 26.23%。
- 使用 DeepSeek-v3 时,车辆属性识别任务的平均准确率提升至 28.32%,车辆检索任务的准确率提升至 28.69%。
- 使用 GPT-4o 时,车辆属性识别任务的平均准确率最高(28.53%),车辆检索任务的准确率最高(29.74%)。
- 分析表明,采用双模型框架(LLM 负责逻辑推理,VLM 负责图像和空间信息解释)能够显著提升性能,但整体分数仍受限于空间感知模型的性能。
结论与未来工作
- 结论:
- 本文通过引入 AirSpatial 数据集和两阶段训练策略,成功开发了 AirSpatialBot,验证了其在细粒度车辆属性识别和检索任务中的有效性。
- 实验结果揭示了现有 VLMs 在空间理解方面的局限性,并为未来研究提供了方向。
- 未来工作:
- 将 AirSpatialBot 的框架扩展到其他类型的地面目标(如飞机和船只)。
- 探索其在更动态和复杂的场景(如灾难响应和城市监视)中的适用性和性能。
- 进一步改进空间感知 VLM 的性能,以提升 AirSpatialBot 在复杂动态环境中的应用效果。