上交解锁遥感图像中的空间理解能力！AirSpatialBot：面向细粒度车辆属性识别与检索的空间感知空中智能体-海口c网

作者：Yue Zhou $^{1}$ , Ran Ding $^{1}$ , Xue Yang $^{2}$ , Xue Jiang $^{1}$ , Xingzhao Liu $^{1}$
单位： $^{1}$ 上海交通大学电子工程系， $^{2}$ 上海交通大学自动化系
论文标题：AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval
论文链接：https://ieeexplore.ieee.org/document/11006099
代码链接：https://github.com/VisionXLab/AirSpatialBot
出版信息：IEEE Transactions on Geoscience and Remote Sensing 2025

主要贡献

提出 AirSpatial 数据集：该数据集包含超过 206K 指令，涵盖两项新任务：空间定位（Spatial Grounding）和空间问答（Spatial Question Answering），是首个提供 3D 边界框（3DBB）的遥感定位数据集，为空间理解在遥感视觉语言模型（VLMs）中的应用奠定了基础。
设计两阶段训练策略：通过图像理解预训练和空间理解微调，利用辅助监督学习（ASL）促进从 2D 到 3D 的知识迁移，并引入几何映射学习（GML）确保 3D 空间一致性，从而构建出具有初步空间感知能力的遥感 VLM。
开发 AirSpatialBot 空中智能体：基于空间感知 VLM，能够进行细粒度车辆属性识别（品牌、型号、动力系统、价格等）和检索，通过动态整合任务规划、图像理解、空间理解和任务执行能力，适应多样化的查询需求，是首个能够从航拍图像中识别车辆品牌、型号和定价信息的方法。
实验验证有效性：通过实验验证了该方法的有效性，揭示了现有 VLMs 在空间理解方面的局限性，并为未来研究提供了有价值的见解。

研究背景

遥感视觉语言模型（VLMs）在图像理解方面取得了显著进展，但在空间关系理解方面存在不足，限制了其在现实世界中的应用。
空间理解能力对于无人机基础智能和视觉语言导航等应用至关重要，但现有 VLMs 在遥感领域的空间理解能力尚未得到充分探索。

AIRSPATIAL数据集

论文中提出了 AirSpatial 数据集，包含两个子数据集：AirSpatial-G 和 AirSpatial-QA，以及一个基准测试集 AirSpatial-Bench。这些数据集的设计旨在提升遥感视觉语言模型（VLMs）的空间理解能力。

AirSpatial-G

目标

为空间定位（Spatial Grounding）任务提供数据支持，将视觉定位从 2D 扩展到 3D。

数据规模

包含 80,497 张图像，分为 66,000 张训练图像和 14,000 张测试图像。

标注信息

每张图像包含一个目标对象的标注，标注格式包括三种边界框：
- 水平边界框（HBB）：2D 平面上的矩形框。
- 定向边界框（OBB）：2D 平面上的旋转矩形框。
- 3D 边界框（3DBB）：目标在 3D 空间中的位置和尺寸。
提供五种查询模板，用于描述目标对象的空间位置（如绝对尺寸、相对尺寸、绝对距离、相对距离等）。

特点

是首个提供 3D 边界框（3DBB） 的遥感视觉定位数据集，能够有效支持模型从 2D 图像平面到 3D 空间场景的理解。

AirSpatial-QA

目标

为空间问答（Spatial Question Answering）任务提供数据支持，提升模型对目标 3D 尺寸和空间关系的理解。

数据规模

包含 126,006 张图像，分为 108,000 张训练图像和 17,000 张测试图像。

标注信息

每张图像包含一个目标对象的标注，标注内容包括目标的 3D 尺寸（长度、宽度、高度）、空间距离（与相机的距离）等信息。
提供五种任务类型的问题模板，例如：
- 估计目标的深度（Depth）。
- 估计目标与相机的距离（Distance）。
- 估计目标的长度、宽度和高度（Length, Width, Height）。
回答的正确性通过与真实值（Ground Truth）的误差范围（5%）来判断。

特点

是首个明确包含目标 三维空间关系 的遥感视觉问答数据集，能够有效提升模型对空间尺度的理解。

AirSpatial-Bench

目标：为车辆属性识别和检索任务提供基准测试，验证模型在实际应用中的性能。
任务设计：
- 车辆属性识别：用户提供车辆在图像中的 2D 位置，模型需要识别车辆的属性（如品牌、型号、动力系统、价格等）。
- 车辆检索：用户提供车辆的品牌和型号信息，模型需要从 3D 场景中定位目标车辆，并输出其在图像中的 2D 位置和 3D 位置。
数据规模：包含 934 个车辆属性识别问题和 839 个车辆检索问题。
特点：要求模型具备任务规划、图像理解、空间理解等综合能力，具有较高的应用价值和挑战性。

空间感知视觉语言模型

架构设计

视觉编码器：
- 负责将输入的航拍图像转换为紧凑的视觉表示。
- 通常基于卷积神经网络（CNN）或 Transformer 架构，能够提取图像中的视觉特征。
投影层：
- 作为视觉模块和语言模块之间的桥梁，将视觉特征映射到与语言特征相同的语义空间。
- 通过学习视觉特征和语言特征之间的对应关系，使模型能够更好地理解图像和文本之间的关联。
大语言模型：
- 负责整合视觉信息和文本信息，执行推理任务。
- 能够处理复杂的语言指令，并结合视觉特征进行目标定位、属性识别等任务。

两阶段训练策略

为了充分利用现有的 2D 数据并提升模型的空间理解能力，论文提出了两阶段训练策略：

第一阶段：图像理解预训练

目标：利用现有的 2D 遥感视觉定位数据集和目标检测数据，对模型进行预训练，使其能够理解遥感图像中的细节。
数据来源：整合了多个现有的 2D 遥感视觉定位数据集（如 RSVG、DIOR-RSVG 等），以及从 DOTA、DIOR、FAIR1M 等数据集中生成的目标检测样本。
训练过程：
- 训练样本对表示为 $(I_i, x_i, p^{2D}_i)$ ，其中 $I_i$ 是图像， $x_i$ 是文本描述， $p^{2D}_i$ 是目标在 2D 图像平面上的位置（HBB 或 OBB）。
- 使用监督微调（SFT）方法，以负对数似然损失函数进行训练，优化模型对 2D 目标位置的预测能力：
  $\mathcal{L}_{\text{phase1}} = - \sum_{(I_i, x_i, p^{2D}_i) \in \mathcal{D}^{2D}} \log M(y^{2D} | x_i, I_i)$
  其中， $y^{2D}$ 是模型预测的 2D 位置。

第二阶段：空间理解微调

目标：利用少量同时标注有 2D 和 3D 信息的数据，对模型进行微调，使其能够理解目标在 3D 空间中的位置和尺寸。
数据来源：使用 AirSpatial 数据集中的标注数据，这些数据同时提供了目标的 2D 位置（HBB 或 OBB）和 3D 位置（3DBB）。
训练过程：
训练样本对表示为 $(I_i, x_i, p^{2D}_i, p^{3D}_i)$ ，其中 $p^{3D}_i$ 是目标在 3D 空间中的位置。
设计了三种损失函数：
混合监督损失（ $\mathcal{L}_{\text{Mix}}$ ）：
- 同时优化模型对 2D 和 3D 位置的预测能力：
  $\mathcal{L}_{\text{Mix}} = - \sum_{(I_i, x_i, p^{2D}_i, p^{3D}_i) \in \mathcal{D}^{3D}} \left( \log M(y^{2D} | x_i, I_i) + \log M(y^{3D} | x_i, I_i) \right)$
辅助监督学习损失（ $\mathcal{L}_{\text{ASL}}$ ）：
- 利用 2D 位置作为辅助信息，鼓励模型基于 2D 位置预测 3D 位置：
  $\mathcal{L}_{\text{ASL}} = - \sum_{(I_i, x_i, p^{2D}_i, p^{3D}_i) \in \mathcal{D}^{3D}} \log M(y^{3D} | x_i, I_i, y^{2D})$
几何映射学习损失（ $\mathcal{L}_{\text{GML}}$ ）：
- 学习 3D 坐标与 2D 坐标之间的几何一致性，使模型能够将 3D 坐标映射回 2D 坐标：
  $\mathcal{L}_{\text{GML}} = - \sum_{(I_i, x_i, p^{2D}_i, p^{3D}_i) \in \mathcal{D}^{3D}} \log M(y^{2D} | x_i, y^{3D})$
最终的总损失函数为：
$\mathcal{L}_{\text{phase2}} = \mathcal{L}_{\text{Mix}} + \mathcal{L}_{\text{ASL}} + \mathcal{L}_{\text{GML}}$
通过这种训练策略，模型能够在有限的 3D 数据条件下最大化其空间理解能力。

空间感知空中智能体

基于空间感知 VLM 开发空中智能体，能够执行细粒度车辆属性识别和检索任务。其框架结合了任务规划、图像理解、空间理解和任务执行能力，能够根据用户的不同需求动态调整任务流程。

框架设计

核心组件

空间感知 VLM：负责图像和空间信息的理解，提供目标的 3D 位置和属性信息。
大语言模型（LLM）：作为规划器（Planner）和总结器（Summarizer），负责生成任务计划和整合最终回答。

工作流程

任务规划

用户提出问题后，LLM 根据问题内容生成一个任务计划，计划中包含多个子任务（如图像理解、空间理解、信息检索等）。
例如，对于车辆属性识别任务，任务计划可能包括：
- 使用空间理解模块获取目标车辆的 3D 尺寸。
- 调用图像理解模块识别车辆的颜色和类型。
- 从数据库中检索车辆的品牌和型号信息。

任务执行

根据任务计划，空中智能体依次调用相应的模块执行每个子任务。
如果任务涉及图像或空间理解，智能体会调用空间感知 VLM 来处理图像和查询，生成相应的输出结果。
智能体将 VLM 的输出结果用于后续任务的执行。

结果总结

所有子任务完成后，LLM 根据中间结果生成最终回答，并返回给用户。
例如，对于车辆检索任务，最终回答可能包括目标车辆在图像中的 2D 位置和 3D 位置信息。

任务示例

车辆属性识别：
- 用户提供车辆在图像中的 2D 位置，空中智能体通过图像理解模块识别车辆的颜色、类型等基本属性。
- 利用空间理解模块获取车辆的 3D 尺寸，并从数据库中检索车辆的品牌和型号信息。
- 最终返回车辆的详细属性信息，如品牌、型号、价格等。
零样本属性识别：
- 对于模型未见过的新车辆品牌和型号，空中智能体通过空间感知能力获取车辆的 3D 尺寸。
- 将车辆尺寸与数据库中的车辆参数表进行匹配，找到最接近的品牌和型号。
- 通过网络搜索获取车辆的动态信息（如价格），并返回给用户。
目标检索：
- 用户提供车辆的品牌和型号信息，空中智能体从数据库中检索目标车辆的 3D 尺寸。
- 利用空间理解模块在 3D 场景中定位目标车辆，并输出其在图像中的 2D 位置和 3D 位置。
- 最终返回目标车辆的位置信息，帮助用户快速找到车辆。

实验与分析

论文通过一系列实验验证了 AirSpatialBot 的性能，并与其他现有模型进行了对比分析。

实验设置

优化器：使用 AdamW 优化器，初始学习率为 2e-4，权重衰减为 0。
梯度裁剪：最大范数为 1.0。
学习率调度：采用线性衰减策略，预热比例为 0.03。
LoRA 模块：应用于连接层和 LLM 的线性层，LoRA 排名为 64，alpha 值为 16，dropout 率为 0.05。
数值精度：采用 FP16。
全局批量大小：128。
训练周期：共 5 个 epoch。
硬件配置：在 8 块 NVIDIA V100 GPU 上进行训练。

实验结果与分析

空间定位任务

评估指标：使用 Acc@0.5（目标定位的准确率，当预测边界框与真实边界框的 IoU 大于 0.5 时认为预测正确）。
实验结果：
- 在 AirSpatial-G 数据集 上，AirSpatialBot 在所有空间定位子任务（绝对尺寸、相对尺寸、绝对距离、相对距离）上均取得了最高性能，但整体得分仍显示出这些任务的挑战性。例如，在绝对尺寸任务中，AirSpatialBot 的 Acc@0.5 为 6.23%，表明还有很大的提升空间。
- 在 其他 RSVG 基准数据集 上，AirSpatialBot 显著优于现有的 VLMs，平均准确率达到了 58.89%，为其第二阶段的 3D 知识迁移奠定了坚实基础。
分析：
- 绝对空间描述比相对描述更具挑战性，因为绝对描述需要模型对整个场景的尺度有更准确的理解。
- GeoChat（一个专门针对遥感应用的 VLM）在空间定位任务上的表现不如通用 VLMs，说明目前遥感领域的训练数据量和多样性还不足以赋予专用 VLMs 强大的泛化和空间推理能力。

空间问答任务

评估指标：使用均方根误差（RMSE）、平均绝对误差（MAE）和 R-squared（决定系数）。
实验结果：
- 在 AirSpatial-QA 数据集 上，AirSpatialBot 在所有三个评估指标上均显著优于其他四种 VLMs（InternVL2、Qwen-VL、Qwen2-VL 和 GeoChat）。具体数值如下：
  - RMSE：216.19
  - MAE：103.80
  - R-squared：0.99
- 在五个细粒度任务（深度、距离、长度、宽度、高度）的 MAE 分数上，AirSpatialBot 也均优于其他模型。例如，在长度估计任务中，AirSpatialBot 的 MAE 为 210.66，而其他模型的 MAE 均超过 3000。
分析：
- AirSpatialBot 在空间问答任务上的优异表现表明其在理解目标 3D 尺寸和空间关系方面具有显著优势。
- 对于所有 VLMs，估计车辆尺寸（长度、宽度、高度）比估计深度和距离更具挑战性，这可能是因为车辆尺寸的变化范围较大，且需要更精确的 3D 空间感知能力。
- GeoChat 虽然在深度和距离估计任务中表现较好，但在车辆尺寸估计任务中表现较差，说明其空间理解能力存在局限性。

车辆属性识别与检索任务

评估指标：
- 车辆属性识别任务：使用准确率（Accuracy）。
- 车辆检索任务：使用 BEV IoU（鸟瞰图交并比），当预测的 3D 边界框与真实边界框的重叠度超过 0.25 时认为预测正确。

实验结果：
- 在 AirSpatial-Bench 基准测试 中，AirSpatialBot 在车辆属性识别任务上取得了最高平均分数（28.53%），并且是唯一支持车辆检索任务的 VLM。具体数值如下：
  - 品牌识别准确率：7.84%
  - 型号识别准确率：1.49%
  - 动力系统识别准确率：78.95%
  - 价格识别准确率：12.69%
  - 门数识别准确率：41.67%
- 其他 VLMs 在车辆属性识别任务上的表现较差，例如 Qwen2-VL 在所有任务上的准确率均为 0%，说明现有模型缺乏从航拍图像中识别细粒度车辆属性的能力。
分析：
- AirSpatialBot 的优异表现归功于其空间感知能力和任务规划能力，使其能够准确识别车辆的细粒度属性并从 3D 场景中定位目标车辆。
- 现有 VLMs 在遥感图像中的细粒度目标识别任务上表现不佳，表明其在空间理解方面存在不足，无法有效利用 3D 空间信息进行目标识别和检索。

消融研究

空间感知 VLM 的改进过程：
- 通过 2D 预训练、多种信号监督（HBB、OBB 和 3DBB）、ASL 和 GML 的逐步引入，显著提升了空间定位任务的性能。具体数值如下：
  - 仅使用 2D 预训练时，Acc@0.5 为 6.37%。
  - 引入多种信号监督后，Acc@0.5 提升至 13.33%。
  - 加入 GML 后，Acc@0.5 提升至 13.24%。
  - 最终加入 ASL 后，Acc@0.5 提升至 15.51%。
- 这些改进措施验证了从 2D 到 3D 知识迁移的有效性，以及 ASL 和 GML 在提升空间理解能力方面的重要性。
不同 LLM 对性能的影响：
- 不使用额外 LLM 时，性能较差（准确率为 0%），说明仅依赖空间感知 VLM 进行任务规划的效果不佳。
- 使用 GPT-3.5-Turbo 时，车辆属性识别任务的平均准确率提升至 24.76%，车辆检索任务的准确率提升至 26.23%。
- 使用 DeepSeek-v3 时，车辆属性识别任务的平均准确率提升至 28.32%，车辆检索任务的准确率提升至 28.69%。
- 使用 GPT-4o 时，车辆属性识别任务的平均准确率最高（28.53%），车辆检索任务的准确率最高（29.74%）。
- 分析表明，采用双模型框架（LLM 负责逻辑推理，VLM 负责图像和空间信息解释）能够显著提升性能，但整体分数仍受限于空间感知模型的性能。

结论与未来工作

结论：
- 本文通过引入 AirSpatial 数据集和两阶段训练策略，成功开发了 AirSpatialBot，验证了其在细粒度车辆属性识别和检索任务中的有效性。
- 实验结果揭示了现有 VLMs 在空间理解方面的局限性，并为未来研究提供了方向。
未来工作：
- 将 AirSpatialBot 的框架扩展到其他类型的地面目标（如飞机和船只）。
- 探索其在更动态和复杂的场景（如灾难响应和城市监视）中的适用性和性能。
- 进一步改进空间感知 VLM 的性能，以提升 AirSpatialBot 在复杂动态环境中的应用效果。