俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划

article/2025/8/21 5:02:02

  • 作者:Oleg Sautenkov 1 ^{1} 1, Yasheerah Yaqoot 1 ^{1} 1, Muhammad Ahsan Mustafa 1 ^{1} 1, Faryal Batool 1 ^{1} 1, Jeffrin Sam 1 ^{1} 1, Artem Lykov 1 ^{1} 1, Chih-Yung Wen 2 ^{2} 2, and Dzmitry Tsetserukou 1 ^{1} 1
  • 单位: 1 ^{1} 1斯科尔科沃科学技术研究院数字工程中心智能空间机器人实验室, 2 ^{2} 2香港理工大学航空与航空工程系AiRo实验室
  • 论文标题:UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning
  • 论文链接:https://arxiv.org/pdf/2505.07236?

主要贡献

  1. 提出了 UAV-CodeAgents,一个多智能体框架,结合了LLMs和VLMs,用于基于视觉-语言驱动的无人机任务生成。
  2. 发布了用于评估从航拍图像和文本提示中进行语义定位和协作规划的基准数据集,专注于卫星图像上的像素级定位精度。
  3. 设计了面向无人机的反应式思考循环(ReAct),使智能体能够在动态任务环境中进行迭代视觉推理、不确定性解决和计划细化。
  4. 在9000张注释卫星图像上对Qwen2.5VL-7B进行了微调,实现了语义语言实体与卫星图像坐标之间的精确对齐,用于精确航点提取。

研究背景

  • 无人机系统在复杂任务中的应用日益广泛,这些任务需要高水平的理解和空间精度,例如大规模环境评估和动态地形中的时间敏感操作。
  • 传统的无人机规划方法依赖于预定义的地图、手动工程启发式方法或手动航点配置,限制了其适应性和可扩展性。
  • 近年来,多模态人工智能(特别是LLMs和VLMs)的发展为无人机任务规划提供了新的可能性,但现有框架大多在封闭环境或单智能体设置中运行,未能充分利用协作推理或基于空间的规划潜力。

研究方法

系统架构

UAV-CodeAgents是一个模块化和可扩展的框架,由以下核心组件构成:

  1. 空域管理智能体(AMA):负责解释自然语言命令、分析卫星图像,并生成空间上对齐的任务计划。它结合了LLMs(如GPT-4、Qwen2.5VL)来解析用户输入,并将其分解为结构化任务(如搜索、定位、验证)。
  2. 无人机智能体(UAV Agent):执行分配的任务,具备轻量级推理能力,允许实时重新评估任务步骤和环境变化。它执行基于计划路线的航点跟随,捕获高分辨率RGB图像,并进行VLM推理以更新任务状态(例如确认火灾、定位目标)。

通信与同步

系统基于 smolagents 框架构建,支持多智能体协调。智能体通过简单的消息传递接口通信,定期报告其状态(位置、图像、语义注释),支持容错和异步操作。

反应式推理循环(ReAct)

ReAct是系统的核心,使智能体能够迭代反思模糊或不完整的输入,重新评估当前假设,并相应地修订其行动。循环包括以下步骤:

  1. 观察:通过无人机图像或卫星快照捕获当前场景。
  2. 描述:使用VLM生成高标记长度的场景描述。
  3. 推理:使用LLM在任务查询的上下文中解释场景描述。
  4. 决策:识别或更新航点,分配新的无人机角色,或修订任务优先级。
  5. 行动:将更新后的指令部署到相关的无人机智能体。

像素级定位机制

像素级定位是UAV-CodeAgents的关键组件,它通过微调Qwen-VL-2.5-7B模型,在9000张注释卫星图像上进行监督微调(SFT),以实现精确的语义目标定位。

实验

实验设置

  • 实验使用了Qwen系列模型,特别是Qwen2.5-72B模型,用于高级任务规划和智能体间协调。视觉感知任务由Qwen2.5VL-32B模型处理。
  • 实验评估了两种不同的采样温度(0.5和0.7),以分析决策制定中的确定性与创造力之间的权衡。

性能指标

检测性能使用以下指标衡量:
Time-to-Detection (TTD) = 1 N ∑ i = 1 N ( t ( i ) detect − t ( i ) query ) \text{Time-to-Detection (TTD)} = \frac{1}{N} \sum_{i=1}^{N} (t(i)_{\text{detect}} - t(i)_{\text{query}}) Time-to-Detection (TTD)=N1i=1N(t(i)detectt(i)query)
其中 $ N = 30 $ 个测试案例,排除假阳性和假阴性案例。

实验结果

  • 实验结果表明,较低的温度设置(0.5)更受青睐,因为它能够带来更好的一致性、更快的执行速度和更高的整体性能。
  • 温度为0.7的模型不仅成功样本较少(26个对比28个),而且平均任务持续时间更长(105.29秒对比96.96秒)。
  • 此外,温度为0.7的设置在某些样本上表现不佳,例如样本6、23、24和29,无法生成连贯的计划或错误解释了图像-语言输入。

结论与未来工作

  • 结论
    • UAV-CodeAgents是一个可扩展的、基于视觉-语言引导的多智能体系统,用于自主无人机任务生成。该系统通过Qwen2.5系列的LLMs和VLMs实现去中心化推理、像素级语义定位和通过反应式思考循环的自适应规划。
    • 实验结果表明,系统在较低采样温度(0.5)下表现出更高的可靠性和效率,成功处理了30个图像中的28个,成功率为93%,平均完成时间为96.96秒。
  • 未来工作
    • 研究人员计划将CodeAgents扩展到无人机群,集成实时遥测技术和传感器支持,以实现在灾难响应和环境监测等现实场景中的强大无人机群协调能力。


http://www.hkcw.cn/article/lduSTRBpbI.shtml

相关文章

杀人嫌犯潜逃27年终落网 乡音破解身份密码

27年前,时年21岁的外省小伙阿亮在当地与一猪肉摊摊主发生口角,一时冲动持刀将其杀害后隐姓埋名潜逃。由于当时技术条件有限,追凶工作一度陷入困境。27年后,阿亮辗转多地来到扬州仪征。仪征警方凭借一句乡音破解了他的“身份密码”,成功将其抓获归案。这起尘封多年的命案积…

贵州58岁产妇产下一名男婴 高龄母亲的奇迹

5月27日17点10分左右,在遵义市妇幼保健院内,一名体重2600克的健康男婴顺利降生。这位男婴的母亲是58岁的李女士,她是该院截至目前妊娠年龄第二大的产妇。作为李女士的手术大夫,遵义市妇幼保健院产科主任马玲玲介绍,尽管李女士身体条件尚可,没有基础性疾病,但因其高龄且此…

vue3 el-upload实现上传图片为base64格式并存储进表单

一、template <el-form-item label"图片" prop"images"><el-uploadaction"#":accept"[image/jpeg, image/png, image/gif].join(,)"list-type"picture-card":auto-upload"true":on-change"handleU…

DMBOK对比知识点对比(3)

1.数据仓库建设方法(Inmon、Kimball) 数据仓库建设方法(Inmon、Kimball)P293方法

制造业的未来图景:超自动化与劳动力转型的双重革命

市场现状&#xff1a;传统制造业的转型阵痛 当前全球制造业正站在历史性变革的十字路口。埃森哲对552位工厂经理的全球调研显示&#xff0c;60%的受访者将劳动力转型视为首要战略任务​​&#xff0c;而63%的工厂正在加速部署自动化技术[1]。超过​75%的工厂经理​​认为&…

上传图片转成3D VR效果 / 用photo-sphere-viewer实现图片VR效果 / VR效果在项目中落地实践

系统简介 : 该系统为 react TS tailwindcss photo-sphere-viewer 的响应式 VR360 项目, 上传图片后可实现手动旋转 3D 图片,还包含了 6 贴图立方体展示和 6 贴图动态展示 目前为单图切换模式 全部页面概览 这是单面VR页面的代码(gif展示页面) import React, { useRef, u…

【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

文章目录 一、摘要二、问题三、Method3.1 Latent Diffusion Model3.2 Motion-guided Diffusion Sampling3.3 Temporal-aware Decoder Fine-tuning 四、实验设置4.1 训练阶段4.2 训练数据 贡献总结 论文全称&#xff1a; Motion-Guided Latent Diffusion for Temporally Consis…

Linux安装mysql5.7详细教程

&#x1f353; 简介&#xff1a;java系列技术分享(&#x1f449;持续更新中…&#x1f525;) &#x1f353; 初衷:一起学习、一起进步、坚持不懈 &#x1f353; 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正&#x1f64f; &#x1f353; 希望这篇文章对你有所帮助,欢…

@高考考生和家长 别带违禁物品、勿信“押题”

2025年高考临近,一些不法分子受利益驱使,散布高考相关虚假信息,制造贩卖焦虑,组织实施诈骗,甚至诱导考生作弊,严重损害考生和家长切身利益,严重扰乱考试招生秩序。为此,教育部会同相关部门梳理汇总了近年来出现的一些典型案例,提醒广大考生和家长切勿相信谣言,谨防上…

Linux文件管理

1 查看文件内容 在 Linux 操作系统中&#xff0c;绝大多数的配置文件是以普通文本格式保存的&#xff0c;这些配置文件决定着系统及相关服务、程序的运行特性。查看及检索文本文件的内容&#xff0c;能够快速了解相关配置信息&#xff0c;以便为管理、维护操作系统提供有效的参…

法国回应“阵风”疑被击落说明什么 首次实战损毁引关注

法国军方首次对“阵风”战机疑似被击落事件作出回应,称如果情况属实,这将是该机型服役以来首次在实战中损毁。印度空军引进了这款战斗机。据媒体报道,法国国防部军方发言人5月27日在例行记者会上表示,若相关信息准确无误,这将是“阵风”战斗机自服役20年来首次在实战中受损…

python2解决反编译乱码

文章目录 得到.pyc文件调用以下脚本&#xff08;二进制转明文&#xff09;得到源码文件 得到.pyc文件 见文章&#xff1a;《python2反编译部分》 执行到这一步就能得到.pyc文件&#xff1a;3、 解包.exe文件&#xff08;以PyInstaller为例&#xff09; 调用以下脚本&#xf…

Vue中nextTick()的理解

目录 前言 一、JavaScript的事件循环机制 1.1执行栈 1.2任务队列 1.2.1宏任务 1.2.2微任务 1.3事件循环 1.4宏任务与微任务执行例子 二、Vue的异步更新策略 2.1为什么Vue选择异步更新 2.2Vue的异步更新实现 2.3nextTick 2.4使用nextTick的最佳时机 前言 在了解n…

详细说说Redis分布式锁和ZK分布式锁

在分布式系统中&#xff0c;分布式锁是实现资源互斥访问的核心机制。Redis 和 ZooKeeper&#xff08;ZK&#xff09;是两种常用的分布式锁实现方案&#xff0c;但它们的实现原理、优缺点和适用场景存在显著差异。 一、Redis 分布式锁 实现原理 基础命令&#xff1a; SET key v…

特朗普关税政策获批暂时恢复实施 法院裁决反转

当地时间5月29日,美国联邦巡回上诉法院批准特朗普政府的请求,暂时搁置了美国国际贸易法院此前做出的禁止执行特朗普政府依据《国际紧急经济权力法》对多国加征关税措施的裁决。联邦巡回上诉法院在裁决书中表示,在审议相关动议文件期间,美国国际贸易法院作出的判决和永久性禁…

官方通报小车超速坠桥致5死 事故原因正调查

官方通报小车超速坠桥致5死 事故原因正调查!5月19日18时23分,苏某驾驶一辆小汽车搭载4人沿环莞快速路行驶。在虎门一水库特大桥路段,车辆因超速冲破防撞沙桶和护栏后坠桥,导致车上5名司乘人员受伤。尽管被紧急送往医院抢救,但最终不幸全部死亡。事故发生后,市镇两级政府迅…

MTK平台-- 如何在屏幕关闭时过滤组播和广播的数据包

一 前言: 这段时间做了一些MTK平台的开发,关于一些WIFI的优化和大家分享下 当DUT(被测设备)连接到wifi网络时,有许多不重要的组播或广播数据包会在屏幕关闭时唤醒DUT的主机,为了降低功耗,DUT需要过滤这些数据包; MTK固件提供一些客户自定义的功能,如关闭过滤组播和…

交通违法拍照数据集,可识别接打电话,不系安全带的行为,支持YOLO,COCO JSON,VOC XML格式的标注数据集 最高正确识别率可达88.6%

交通违法拍照数据集 数据集概述 数据来源&#xff1a;交通监控摄像头、执法记录仪、公开数据集数据类型&#xff1a;图像、视频、元数据&#xff08;时间、地点、车辆信息&#xff09;违法类型标注&#xff1a;接打电话、未系安全带 数据采集与标注方法 采集设备&#xff1…

DMBOK对比知识点对比(2)

1.违背伦理进行数据处理的风险 违背伦理进行数据处理的风险风险