【AI论文】空间多模态大型语言模型(Spatial-MLLM):增强基于视觉的空间智能中多模态大型语言模型(MLLM)的能力

article/2025/6/13 21:48:58

摘要:多模态大语言模型(MLLM)的最新进展显著提高了2D视觉任务的性能。 然而,提高他们的空间智能仍然是一个挑战。 现有的3D MLLM总是依赖于额外的3D或2.5D数据来加入空间感知,限制了它们在只有2D输入(如图像或视频)的场景中的实用性。 在本文中,我们提出了Spatial-MLLM,这是一种基于视觉的纯二维观察空间推理的新框架。 与传统的视频MLLM不同,传统的视频MLLM依赖于基于CLIP的视觉编码器,这些编码器针对语义理解进行了优化,我们的关键见解是从前馈视觉几何基础模型中释放出强大的结构先验。 具体而言,我们提出了一种双编码器架构:一个预训练的2D视觉编码器用于提取语义特征,以及一个从视觉几何模型主干初始化的空间编码器,用于提取3D结构特征。 然后,连接器将这两个特征整合到统一的视觉标记中,以增强空间理解。 此外,我们提出了一个在推理时具有空间感知的帧采样策略,该策略选择视频序列中具有空间信息的帧,确保即使在有限的标记长度下,模型也能关注对空间推理至关重要的帧。 除了架构改进之外,我们还构建了Spatial-MLLM-120k数据集,并使用监督微调和GRPO对其进行模型训练。 在各种真实世界数据集上的广泛实验表明,我们的空间机器学习模型在广泛的基于视觉的空间理解和推理任务中达到了最先进的性能。 项目主页:Github。Huggingface链接:Paper page,论文链接:2505.23747

一、研究背景和目的

研究背景

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理和理解多模态输入(如图像、视频和音频)方面取得了显著进展,极大地提升了2D视觉任务的性能。然而,这些模型在空间智能(spatial intelligence)方面的表现仍然有限。空间智能指的是模型对3D场景的理解和推理能力,这在许多实际应用中至关重要,如机器人导航、增强现实和虚拟现实等。

现有的3D MLLMs通常依赖于额外的3D或2.5D数据(如点云、相机参数或深度图)来增强空间感知能力。然而,这种依赖性限制了模型在只有2D输入(如图像或视频)的场景中的实用性。在许多现实世界的应用中,仅能获取到2D视频数据,而无法获得额外的3D或2.5D信息。因此,如何从纯2D观察中有效地进行基于视觉的空间推理,成为了一个亟待解决的问题。

研究目的

本文旨在提出一种名为Spatial-MLLM的新框架,以增强MLLM在基于视觉的空间智能方面的能力。具体目标包括:

  1. 设计一种无需额外3D或2.5D数据的空间推理框架:通过利用前馈视觉几何基础模型提供的强大结构先验,从纯2D观察中提取空间信息。
  2. 提出一种双编码器架构:结合预训练的2D视觉编码器和空间编码器,分别提取语义特征和3D结构特征,并通过连接器将它们整合成统一的视觉标记。
  3. 开发一种空间感知的帧采样策略:在推理过程中选择具有空间信息的帧,确保模型在有限的标记长度下关注对空间推理至关重要的帧。
  4. 构建Spatial-MLLM-120k数据集:并使用监督微调和GRPO(Group Relative Policy Optimization)对模型进行训练,以在多种基于视觉的空间理解和推理任务中达到最先进的性能。
二、研究方法

1. 双编码器架构

  • 2D视觉编码器:采用预训练的2D视觉编码器(如Qwen2.5-VL中的视觉编码器)来提取输入帧的语义特征。
  • 空间编码器:利用视觉几何基础模型(如VGGT)的主干初始化空间编码器,以提取3D结构特征。空间编码器通过交替的帧级自注意力和全局自注意力来聚合不同帧之间的空间信息。
  • 连接器:将2D和3D特征在空间和时间维度上对齐,并通过两个轻量级的多层感知机(MLP)将它们融合成统一的视觉标记。

2. 空间感知的帧采样策略

  • 在推理过程中,由于GPU内存限制,只能处理视频序列中的有限子集帧。本文提出了一种空间感知的帧采样策略,通过最大化覆盖场景中的独特体素来选择最具空间信息的帧。
  • 具体而言,首先均匀采样一定数量的候选帧,然后利用空间编码器提取它们的3D特征,并通过预训练的相机头和深度头解码出相机参数和深度图。
  • 接着,将深度图重新投影到3D点云,并计算每个帧覆盖的体素。最后,使用贪心算法选择覆盖最多独特体素的帧。

3. 数据集构建与模型训练

  • Spatial-MLLM-120k数据集:从ScanQA、SQA3D以及自行创建的空间问答数据中收集而成,涵盖了各种空间理解和推理任务,如对象计数、对象大小、房间大小、绝对距离、出现顺序、相对距离和相对方向等。
  • 监督微调(SFT):在Spatial-MLLM-120k数据集上对模型进行监督微调,冻结2D视觉编码器和空间编码器的参数,仅训练连接器和LLM主干。
  • 强化学习(RL)训练:在SFT之后,使用GRPO算法对模型进行进一步训练,以增强其长链思考(long-CoT)空间推理能力。设计了一个任务依赖的奖励函数,以准确反映预测答案与真实答案之间的接近程度。
三、研究结果

1. 定量评估

  • 在VSI-Bench、ScanQA和SQA3D等多个基准数据集上进行了广泛实验,结果表明Spatial-MLLM在多种基于视觉的空间理解和推理任务中达到了最先进的性能。
  • 特别是在VSI-Bench数据集上,尽管Spatial-MLLM仅使用了16个输入帧,但其平均准确率仍显著高于其他模型,包括参数规模更大的模型(如Gemini-1.5Pro)。
  • 在ScanQA和SQA3D数据集上,Spatial-MLLM也显著优于所有仅使用视频输入的模型,并在某些指标上超过了使用额外3D或2.5D输入的模型。

2. 定性分析

  • 通过可视化空间感知的帧采样策略,展示了该策略如何选择更具空间信息的帧,从而提高了模型的空间推理能力。
  • 提供了模型在VSI-Bench数据集上的定性示例,展示了模型如何进行视觉信息的推理,并产生相应的最终答案。这些示例表明,Spatial-MLLM能够有效地分解任务、进行自我验证,并在推理过程中展现出强大的能力。

3. 消融实验

  • 评估了RL训练的有效性,表明即使在小规模的GRPO训练下,Spatial-MLLM也能实现性能提升。
  • 验证了Spatial-MLLM架构的有效性,表明双编码器设计和连接器的融合策略显著提高了模型的空间理解和推理能力。
  • 分析了空间感知帧采样策略的有效性,表明该策略在相同数量的输入帧下始终优于均匀采样。
四、研究局限

尽管Spatial-MLLM在基于视觉的空间智能方面取得了显著进展,但仍存在一些局限性:

  1. 模型规模和训练数据的限制:目前Spatial-MLLM的模型规模和训练数据量仍有提升空间。未来可以探索更大规模的模型和更丰富的训练数据,以进一步提升性能。
  2. 一般视频理解和推理任务的探索不足:本文主要关注基于视觉的空间智能任务,对于一般视频理解和推理任务的探索相对较少。未来可以研究如何将空间结构信息集成到一般视频理解和推理任务中,以进一步提升模型的通用性。
  3. 实时性能的挑战:在实际应用中,实时性能是一个重要的考虑因素。尽管Spatial-MLLM在推理过程中采用了空间感知的帧采样策略来减少计算量,但仍需进一步优化以提高实时性能。
五、未来研究方向

基于Spatial-MLLM的研究成果和局限性,未来可以从以下几个方面进行深入研究:

  1. 扩大模型规模和训练数据
    • 探索更大规模的模型架构,如使用更多的参数和更深的网络结构,以提升模型的空间理解和推理能力。
    • 收集更多样化和丰富的训练数据,特别是包含复杂3D场景和多样化空间关系的数据,以进一步提高模型的泛化能力。
  2. 优化空间感知的帧采样策略
    • 研究更高效的帧采样算法,以在保持空间信息完整性的同时进一步减少计算量。
    • 探索动态帧采样策略,根据视频内容的变化自适应地调整采样帧的数量和位置。
  3. 集成空间结构信息到一般视频理解和推理任务
    • 研究如何将Spatial-MLLM中的空间结构信息集成到一般视频理解和推理任务中,如视频分类、动作识别和视频问答等。
    • 开发新的模型架构和训练方法,以同时利用空间和时间信息来提升视频理解和推理的性能。
  4. 提升实时性能
    • 优化模型的推理过程,减少不必要的计算和内存访问,以提高实时性能。
    • 探索硬件加速技术,如使用GPU或TPU等专用硬件来加速模型的推理过程。
  5. 探索跨模态学习和应用
    • 研究如何将Spatial-MLLM与其他模态(如音频、文本等)的信息进行有效融合,以实现更全面的多模态理解和推理。
    • 探索Spatial-MLLM在跨模态应用中的潜力,如语音导航、视频描述生成和智能监控等。
  6. 加强可解释性和可信度研究
    • 研究如何提高Spatial-MLLM的可解释性,使模型的决策过程更加透明和可信。
    • 开发新的评估指标和方法,以全面评估模型在空间智能任务中的性能和可信度。

综上所述,Spatial-MLLM为增强MLLM在基于视觉的空间智能方面的能力提供了一种新的框架和方法。未来的研究可以围绕扩大模型规模和训练数据、优化空间感知的帧采样策略、集成空间结构信息到一般视频理解和推理任务、提升实时性能、探索跨模态学习和应用以及加强可解释性和可信度研究等方面展开,以进一步推动该领域的发展。


http://www.hkcw.cn/article/rssFUjHZDC.shtml

相关文章

黑马Java面试笔记之 微服务篇(业务)

一. 限流 你们项目中有没有做过限流?怎么做的? 为什么要限流呢? 一是并发的确大(突发流量) 二是防止用户恶意刷接口 限流的实现方式: Tomcat:可以设置最大连接数 可以通过maxThreads设置最大Tomcat连接数,实现限流,但是适用于单体架构 Nginx:漏桶算法网关,令牌桶算法自定…

AWS App Mesh实战:构建可观测、安全的微服务通信解决方案

摘要:本文详解如何利用AWS App Mesh统一管理微服务间通信,实现精细化流量控制、端到端可观测性与安全通信,提升云原生应用稳定性。 一、什么是AWS App Mesh? AWS App Mesh 是一种服务网格(Service Mesh)解…

《云原生安全攻防》-- K8s网络策略:通过NetworkPolicy实现微隔离

默认情况下,K8s集群的网络是没有任何限制的,所有的Pod之间都可以相互访问。这就意味着,一旦攻击者入侵了某个Pod,就能够访问到集群中任意Pod,存在比较大的安全风险。 在本节课程中,我们将详细介绍如何通过N…

吃透 Golang 基础:数据结构之 Map

文章目录 Map概述初始化删除访问不存在的 key 返回 value 的零值遍历 mapmap 自身的零值map 索引时返回的第二个参数使用 map 实现 set Map Hash Map 是无序的 key/value 对集合,其中所有的 key 都是不同的。通过给定的 key 可以在常数时间复杂度内完成检索、更新或…

手机邮箱APP操作

收发电子邮件方式 邮箱可以在网络段登录,也可以在手机端登录。 大学网络服务 收发电子邮件有三种方式: 1、Web方式: 1)登录“网络服务”(https://its.pku.edu.cn),点页面顶端“邮箱”。 2&…

Spring AI之RAG入门

目录 1. 什么是RAG 2. RAG典型应用场景 3. RAG核心流程 3.1. 检索阶段 3.2. 生成阶段 4. 使用Spring AI实现RAG 4.1. 创建项目 4.2. 配置application.yml 4.3. 安装ElasticSearch和Kibana 4.3.1. 安装并启动ElasticSearch 4.3.2. 验证ElasticSearch是否启动成功 …

Spring AI Alibaba + Nacos 动态 MCP Server 代理方案

作者:刘宏宇,Spring AI Alibaba Contributor 文章概览 Spring AI Alibaba MCP 可基于 Nacos 提供的 MCP server registry 信息,建立一个中间代理层 Java 应用,将 Nacos 中注册的服务信息转换成 MCP 协议的服务器信息&#xff0c…

19-项目部署(Linux)

Linux是一套免费使用和自由传播的操作系统。说到操作系统,大家比较熟知的应该就是Windows和MacOS操作系统,我们今天所学习的Linux也是一款操作系统。 我们作为javaEE开发工程师,将来在企业中开发时会涉及到很多的数据库、中间件等技术&#…

2025.6.3学习日记 Nginx 基本概念 配置 指令 文件

1.初始nginx Nginx(发音为 “engine x”)是一款高性能的开源 Web 服务器软件,同时也具备反向代理、负载均衡、邮件代理等功能。它由俄罗斯工程师 Igor Sysoev 开发,最初用于解决高并发场景下的性能问题,因其轻量级、高…

SpringCloud——Nacos注册中心、OpenFeign

一、Nacos注册中心 1.注册中心原理 2.服务注册 添加依赖&#xff1a; <!--nacos 服务注册发现--> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-nacos-discovery</artifactId> </dep…

WAF绕过,网络层面后门分析,Windows/linux/数据库提权实验

一、WAF绕过文件上传漏洞 win7&#xff1a;10.0.0.168 思路&#xff1a;要想要绕过WAF&#xff0c;第一步是要根据上传的内容找出来被拦截的原因。对于文件上传有三个可以考虑的点&#xff1a;文件后缀名&#xff0c;文件内容&#xff0c;文件类型。 第二步是根据找出来的拦截原…

榕壹云健身预约系统:多门店管理的数字化解决方案(ThinkPHP+MySQL+UniApp实现)

随着全民健身热潮的兴起,传统健身房在会员管理、课程预约、多门店运营等方面面临诸多挑战。针对这一需求,我们开发了一款基于ThinkPHP+MySQL+UniApp的榕壹云健身预约系统,为中小型健身机构及连锁品牌提供高效、灵活的数字化管理工具。本文将详细介绍系统的技术架构、核心功能…

nginx去掉暴漏外边的版本号

背景 在做安全扫描的时候&#xff0c;对方说nginx会暴漏版本号属于中危漏洞 解决方法 nginx 在http{括号里增加 server_tokens off; # 关闭版本号显示# add_header Server "Apache/2.4.3"; # 伪造为 Apache 服务器&#xff08;可选&#xff09;效果

飞牛fnNAS存储模式RAID 5数据恢复

目录 一、添加硬盘 二、创建RAID 5 存储空间 三、上传测试文件 四、拆除硬盘 五、更换硬盘 六、修复RAID 5 七、验证其内文件 八、NAS系统崩溃后的数据盘 前文《飞牛fnNAS存储空间模式详解》 中介绍了fnNAS存储空间的几个模式,细心的网友应该能感受到,我是非常推崇R…

OpenEMMA: 打破Waymo闭源,首个开源端到端多模态模型

1. 概述 OpenEMMA&#xff08;Open-source End-to-end Multimodal Model for Autonomous driving&#xff09;是由德州农工大学、密歇根大学和多伦多大学联合推出的开源端到端自动驾驶多模态模型框架&#xff0c;旨在复现并开源 Waymo 旗下 EMMA 系统的核心思路与方法。 该框…

学习STC51单片机26(芯片为STC89C52RCRC)

每日一言 真正的强者&#xff0c;不是没有眼泪&#xff0c;而是含着泪依然奔跑。 硬件&#xff1a;4G模块 这个是接线原理&#xff0c;我们也只要知道这个4根线的连接就好了&#xff0c;我们也是连接到USB转TTL的模块上 要插卡哈......... 随后我们下载一个叫做亿佰特的调试助…

GROM快速上手

&#x1f43e; 个人主页 &#x1f43e; 阿松爱睡觉&#xff0c;横竖醒不来 &#x1f3c5;你可以不屠龙&#xff0c;但不能不磨剑&#x1f5e1; 目录 一、概要二、上手步骤&#xff08;一&#xff09;安装 GORM&#xff08;二&#xff09;连接数据库&#xff08;三&#xff09;定…

MATLAB仿真生成无线通信网络拓扑推理数据集

一、数据集生成程序 %创建时间&#xff1a;2025年6月3日 %用途&#xff1a;生成不同节点样本&#xff0c;统计稀疏性约束情况 %zhouzhichaoclose all clearfor n [20,30,40,50]dataset_n 100;nodes_P ones(n,1);for Sampling_M [3000]%获取一帧信号及对应功率[ack,fs] ac…

【OCCT+ImGUI系列】012-Geom2d_AxisPlacement

Geom2d_AxisPlacement 教学笔记 一、类概述 Geom2d_AxisPlacement 表示二维几何空间中的一个坐标轴&#xff08;轴系&#xff09;&#xff0c;由两部分组成&#xff1a; gp_Pnt2d&#xff1a;原点&#xff08;Location&#xff09;gp_Dir2d&#xff1a;单位方向向量&#xff…

NodeMediaEdge任务管理

NodeMediaEdge任务管理 简介 NodeMediaEdge是一款部署在监控摄像机网络前端中&#xff0c;拉取Onvif或者rtsp/rtmp/http视频流并使用rtmp/kmp推送到公网流媒体服务器的工具。 在未使用NodeMediaServer的情况下&#xff0c;或是对部分视频流需要单独推送的需求&#xff0c;也可…