论文速读《UAV-Flow Colosseo: 自然语言控制无人机系统》

article/2025/7/23 10:10:09
  • 论文链接:https://arxiv.org/abs/2505.15725
  • 项目主页:https://prince687028.github.io/UAV-Flow/

0. 简介

近年来,无人机技术蓬勃发展,但如何让无人机像智能助手一样理解并执行人类语言指令,仍是一个前沿挑战。现有研究主要关注基于语言指令的长距离导航和目标搜索等高层级任务,而对于语言引导的精细化、短距离控制——即无人机的"基本功"——却缺乏深入研究。

北航团队创新性地将研究重点从传统的"飞得远"转向"飞得好",通过模仿学习框架使无人机能够精确执行短距离、反应式的飞行行为,首次在开放场景中实现了基于自然语言对话的无人机飞行控制。
在这里插入图片描述

图1:UAV-Flow基准概览。该基准包含一个大规模的真实世界数据集,用于基于语言条件的无人机模仿学习,具有以下特点:多个无人机平台、多样化的环境以及广泛的细粒度飞行技能任务。为了在Flow任务设置下进行系统性的实验分析,我们还提供了基于仿真的评估协议,并将VLA模型部署到真实无人机上。据我们所知,这是首次在开放环境中将VLA模型用于语言引导的无人机控制的真实世界部署。

1. 主要贡献

首创"Flying-on-a-Word"任务范式:研究团队将语言引导的无人机控制问题正式化为短距离、反应式飞行行为的精细轨迹控制任务。这一创新范式填补了现有研究在无人机低层次语言交互控制方面的空白,为无人机智能化发展开辟了新方向。

构建真实世界大规模数据集:团队创建了首个真实世界的UAV-Flow数据集,包含超过3万条真实飞行轨迹,覆盖多种运动类型和环境条件。数据采集工作在三所高校校园内展开,总覆盖面积达5.02平方公里,为模型训练和评估提供了坚实基础。

提出地面-无人机协作部署框架:针对无人机机载计算资源受限的实际挑战,研究团队设计了创新的地面-无人机协作策略。通过在地面站进行推理并实时反馈控制指令,成功实现了大模型在真实无人机平台的部署。

开发完整评估体系:设计了用于Flow任务性能评估的闭环仿真测试环境和评估指标,包括成功率(SR)和归一化动态时间规整(NDTW),为系统比较不同模型性能提供了标准化工具。
在这里插入图片描述

图2:传统无人机VLN与我们的Flow分析。左图:VLN任务旨在通过规划长时间跨度的路径,根据指令到达远距离目标。右图:Flow专注于在当前场景中,执行短距离的、基于语言引导的轨迹,朝向视觉锚定的目标。

在这里插入图片描述

图3:Flow任务的可视化。在相同的指令下,人类飞行员执行了多样化的真实世界飞行轨迹。我们展示了航拍场景中的二维飞行路径以及重建的三维轨迹。

2. 相关工作分析

2.1 传统视觉语言导航的局限性

现有的无人机语言控制研究主要借鉴地面机器人的视觉语言导航(VLN)技术。这些方法通常关注长距离路径规划和目标搜索等高层级推理任务,采用离散化的动作空间和简化的控制模式。然而,这种方法存在明显局限:

控制粒度粗糙:传统VLN方法通常采用离散的动作指令(如"前进"、“左转”),无法满足无人机精细化控制的需求。无人机作为六自由度的空中平台,需要连续、平滑的控制输入来实现稳定飞行。

缺乏动力学约束:地面机器人的运动相对简单,而无人机必须在三维空间中保持稳定,需要考虑空气动力学特性和飞行动力学约束。

任务场景单一:现有研究多聚焦于长距离导航任务,对于日常使用中更常见的短距离、精细化操作缺乏关注。

2.2 模仿学习在机器人控制中的应用

模仿学习作为一种重要的机器学习范式,在机器人控制领域展现出巨大潜力。通过学习专家行为模式,模仿学习能够:

捕获复杂策略:专家飞行员的操作包含丰富的隐式知识,如对环境的感知、风险评估和轨迹优化等,这些都难以用传统规则明确表达。

适应动态环境:真实飞行环境复杂多变,模仿学习能够帮助模型学会在不确定环境中做出合理决策。

提高安全性:通过学习专家的安全飞行策略,可以有效降低无人机操作风险。
在这里插入图片描述

图4:真实世界无人机数据采集流程

2.3 多模态感知技术的发展

随着深度学习技术的进步,多模态感知在机器人领域取得显著发展:

视觉-语言理解:大型视觉语言模型的出现为实现真正的视觉-语言-动作(VLA)系统奠定了基础。

跨模态对齐:如何有效地将语言指令、视觉观测和运动控制进行对齐,是实现智能无人机控制的关键挑战。
在这里插入图片描述

图5:UAV-Flow和UAV-Flow-Sim的数据集统计。我们展示了两个数据集中任务类型的分布(按百分比)以及轨迹距离的分布情况。

3. 核心算法深度解析

3.1 Flow任务的数学建模

研究团队将Flying-on-a-Word任务形式化为一个多模态决策问题。在每个时间步,无人机代理需要整合三种输入模态:

自然语言指令:描述期望的飞行行为,如"绕着建筑物飞行"或"向左平移5米"。

六自由度状态信息:包括位置坐标(x, y, z)和姿态角度(roll, pitch, yaw),提供无人机当前的精确空间状态。

第一视角视觉观测:来自无人机前置摄像头的实时图像,提供环境感知信息。

策略函数的设计需要将这三种异构信息有效融合,生成符合动力学约束的连续控制动作。

3.2 指令类型分类与处理策略

3.2.1 原始运动指令

这类指令涉及基础的飞行动作,包括:

  • 起降控制:垂直起飞、降落、悬停等
  • 平移运动:前后左右的位移控制
  • 旋转动作:偏航、俯仰、翻滚调整
  • 高度变化:上升、下降、保持高度

对于原始运动指令,算法主要关注运动意图理解,将语言描述映射到对应的控制参数。

3.2.2 目标交互指令

这类指令要求无人机与环境中的特定对象进行交互:

  • 接近行为:飞向指定目标
  • 环绕动作:围绕目标做圆周或椭圆轨迹
  • 穿越行为:从目标的特定方向通过
  • 跟随模式:保持与移动目标的相对位置

目标交互指令的处理更加复杂,需要结合视觉感知进行空间推理,实现感知驱动的轨迹规划。

3.3 多模态数据融合架构

3.3.1 语言编码模块

采用预训练的语言模型对自然语言指令进行编码,提取语义特征。为了处理指令的多样性,研究团队构建了固定命令集和开放词汇命令集两套标准:

固定命令集:标准化的指令表达,如所有"侧向穿越"任务统一标记为"从物体右侧飞过"。

开放词汇命令集:利用大语言模型生成多样化的表达方式,增强模型对自然语言变化的适应能力。

3.3.2 视觉感知模块

基于卷积神经网络或视觉Transformer的视觉编码器,从第一视角图像中提取环境特征。视觉模块需要识别关键的环境元素,如建筑物、车辆、行人等,为空间推理提供支持。

3.3.3 状态融合与动作生成

将语言特征、视觉特征和状态信息进行深度融合,通过注意力机制实现跨模态对齐。最终的动作生成器输出连续的控制指令,包括速度、角速度等底层控制参数。

3.4 地面-无人机协作框架

3.4.1 通信延迟处理策略

实际部署中,地面站与无人机之间的通信存在不可避免的延迟。传统的处理方法包括:

停止推理模式:无人机在推理期间暂停飞行,但这会破坏任务的连续性。

连续运动模式:无人机持续飞行,但可能因延迟响应导致控制失配。

研究团队创新性地提出了全局对齐连续运动方案,具有前瞻机制的分块动作预测能力。

3.4.2 前瞻预测机制

该机制的核心思想是提前预测多个时间步的目标点,形成一个目标轨迹序列。在每次推理时:

  1. 批量预测:一次性预测未来多个时间步的目标位置
  2. 全局融合:将预测目标点与当前无人机状态进行融合,生成全局坐标系下的目标姿态
  3. 延迟过滤:根据无人机运动延迟,过滤掉已经经过的目标点
  4. 平滑插值:对剩余目标点进行插值,生成平滑的控制轨迹

这种设计有效缓解了通信延迟对控制精度的影响,确保了飞行动作的连续性和稳定性。

3.5 轨迹质量评估算法

3.5.1 成功率评估

成功率(SR)评估基于人工检查预测轨迹是否在语义上满足指令要求。评估过程包括:

  1. 轨迹记录:完整记录预测轨迹和目标点
  2. 可视化渲染:生成2D和3D轨迹可视化
  3. 语义匹配:人工判断轨迹是否符合指令语义
3.5.2 归一化动态时间规整

针对某些轨迹虽然语义正确但路径次优的情况,引入归一化动态时间规整(NDTW)评估轨迹质量。

NDTW能够评估预测轨迹与参考轨迹之间的相似性,考虑了位置和方向的综合影响。在实现中,每个轨迹点被表示为6维向量,包含位置坐标(x, y, z)和方向余弦值(roll, yaw, pitch),全面捕获飞行状态的影响。
在这里插入图片描述

图6:大规模模型的真实世界无人机部署。无人机将视觉输入和状态数据流传输到地面站进行推理,并接收控制指令以实现实时飞行执行。

4. 实验结果与分析

4.1 仿真环境评估

研究团队构建了基于UnrealEngine的UAV-Flow-Sim仿真数据集,包含10,109条轨迹数据。仿真环境高度还原真实校园场景,支持多种可交互对象的部署。

数据分布特征

  • 轨迹长度主要集中在20米以内,符合短距离精细控制的任务特点
  • 覆盖8种主要运动类型,包括平移、旋转、环绕、穿越等
  • 包含原地旋转等近零位移轨迹,体现了任务的多样性

基准模型对比
实验对比了多个基线模型在Flow任务上的表现,包括传统的强化学习方法、模仿学习方法以及最新的视觉语言模型。结果显示:

  1. 成功率方面:基于模仿学习的方法显著优于传统强化学习方法,证明了专家演示的重要性
  2. 轨迹质量方面:多模态融合模型在NDTW指标上表现最佳,验证了综合考虑语言、视觉和状态信息的必要性
  3. 泛化能力方面:在开放词汇指令上训练的模型展现出更强的泛化能力
    在这里插入图片描述

图7:UAV-Flow-Sim数据集的综合评估我们在10种Flow任务类型上对代表性的VLN方法和来自机器人操作领域的VLA方法进行了基准测试,并使用成功率(SR)指标报告了性能表现。

4.2 真实世界部署验证

部署环境:在北京航空航天大学国际学院的开放场景中进行真机测试,环境包含建筑物、车辆、行人等多样化元素。

技术验证

  • 成功实现了视觉语言动作(VLA)系统的真机部署
  • 验证了地面-无人机协作框架的有效性
  • 实现了基于自然语言对话的实时无人机控制

性能表现

  • 控制延迟控制在可接受范围内(<500ms)
  • 飞行轨迹与指令语义高度一致
  • 系统运行稳定,未出现安全事故

挑战与解决

  • 通信稳定性:通过多重备份通信链路确保连接可靠性
  • 环境适应性:利用真实世界数据训练的模型展现出良好的环境适应能力
  • 安全保障:集成多层安全机制,包括紧急停止、自动返航等功能
    在这里插入图片描述

图8:基于NDTW指标的UAV-FlowSim数据集综合评估。雷达图中外侧的浅绿色区域表示与物体交互的任务,而橙色区域表示基本运动任务。

5. 结论与展望

北航团队的UAV-Flow研究为无人机智能控制领域带来了革命性突破。通过提出Flying-on-a-Word任务范式,该工作成功将无人机控制从传统的"飞得远"升级为"飞得好",实现了语言指令与精细飞行控制的深度融合。


http://www.hkcw.cn/article/QNioCdXfQL.shtml

相关文章

关于表连接

目录 1.左连接 2.右连接 3.内连接 4.全外连接 5.笛卡尔积 -- 创建表A CREATE TABLE A(PNO VARCHAR2(10) PRIMARY KEY, PAMT NUMBER, A_DATE DATE);-- 向表A插入数据 INSERT INTO A VALUES (01001, 100, TO_DATE(2005-01-01, YYYY-MM-DD)); INSERT INTO A VALUES (010…

【面试 - 遇到的问题 - 优化 - 地图】腾讯地图轨迹回放 - 回放的轨迹时间要和现实时间对应(非匀速)

目录 背景轨迹回放 - 匀速效果图TrackPlaybackDialog.vue 代码TMapNew.vue 代码 轨迹回放 - 非匀速效果图TrackPlaybackDialog.vue 代码TMapNew.vue 代码 背景 腾讯地图轨迹回放是匀速回放的&#xff0c;但是客户要求根据现实时间&#xff0c;什么时间点在某个点位 【腾讯地图轨…

Python Day37 学习

&#xff08;补充学习几个知识点&#xff09; 1. 异常处理机制 摘自讲义 常见异常报错 2. debug 理解一下几种错误 SyntaxError 语法错误 代码不符合Python的语法规则 错误代码示例 NameError 名称错误 尝试使用一个未被定义的变量、函数或对象的名称。 TypeError 类型错…

打破建筑管理壁垒,IBMS智能系统赋能现代建筑协同增效

在建筑行业快速发展与智能化转型的进程中&#xff0c;传统建筑管理模式正面临前所未有的挑战。各子系统独立运行形成的“信息孤岛”、部门间沟通不畅导致的协作低效&#xff0c;以及管理决策缺乏数据支撑等问题&#xff0c;严重制约了建筑的运营效率与服务质量。而IBMS&#xf…

十四: 导数,数值微分,偏导数,梯度

在前一章说明损失函数的用途时,引入了梯度,导数等名词,现在我们详细了解一下这些名词 1. 导数 假如你是全程马拉松选手&#xff0c;在开始的 10 分钟内跑了 2 千米。如果要计算此时的奔跑速度&#xff0c;则为 2/10 0.2&#xff3b;千米 / 分&#xff3d;。也就是说&#xf…

深度刨析树结构(从入门到入土讲解AVL树及红黑树的奥秘)

树的概念及结构: 树是一种非线性的数据结构&#xff0c;它是由n>0个有限结点组成的一个有层次关系的集合&#xff0c;把它叫做树是因为像一个倒挂的树&#xff0c;根在上&#xff0c;叶子在下 对于树&#xff0c;每颗树都可以看成根节点和子树&#xff0c;所有的子树又可以…

Replacing iptables with eBPF in Kubernetes with Cilium

source: https://archive.fosdem.org/2020/schedule/event/replacing_iptables_with_ebpf/attachments/slides/3622/export/events/attachments/replacing_iptables_with_ebpf/slides/3622/Cilium_FOSDEM_2020.pdf 使用Cilium&#xff0c;结合eBPF、Envoy、Istio和Hubble等技术…

基于NXP例程学习CAN UDS刷写流程

文章目录 前言1.概述1.1 诊断报文 2.协议数据单元(N_PDU)2.1 寻址信息&#xff08;N_AI&#xff09;2.1.1 物理寻址2.1.2 功能寻址2.1.3 常规寻址&#xff08;Normal addressing&#xff09;2.1.4 常规固定寻址&#xff08;Normal fixed addressing&#xff09;2.1.5 扩展寻址&…

c++ 模板

测试代码。my_template.h头文件内容如下&#xff1a; #ifndef MY_TEMPLATE_HEADER_H #define MY_TEMPLATE_HEADER_H// 函数模板示例 函数模板的 T 作用域仅限于此函数 template<typename T> T my_max(T a, T b) {return (a > b) ? a : b; }// 类模板示例 类模板的 T…

HTML网页-练习float

划分 12个格子&#xff0c;第一栏为&#xff1a;人物简介&#xff1b;其他栏为人物名称&#xff1b; 使用float: left将格子左浮动。 设置格子背景颜色&#xff0c;字体颜色&#xff0c;鼠标放上去后的字体颜色和背景颜色。 <style>.title {width: 100%;overflow: hidd…

Express教程【003】:Express获取查询参数

文章目录 3、获取URL中携带的查询参数3.1 参数形式&#xff1a;查询字符串3.2 参数形式&#xff1a;动态参数3.3 参数形式&#xff1a;Json数据 3、获取URL中携带的查询参数 3.1 参数形式&#xff1a;查询字符串 1️⃣通过req.query对象&#xff0c;可以访问到客户端通过查询…

搭建最新版开源监控平台SigNoz踩的坑

转载说明&#xff1a;如果您喜欢这篇文章并打算转载它&#xff0c;请私信作者取得授权并注明出处。感谢您喜爱本文&#xff0c;请文明转载&#xff0c;谢谢。 一、前言 SigNoz 是一款开源应用程序性能监控工具&#xff0c;在往期相关文章&#xff08;文末有链接&#xff09;中…

ArcGIS应用指南:基于网格与OD成本矩阵的交通可达性分析

随着城市化进程的加速,交通系统的效率和公平性日益成为影响居民生活质量的关键因素之一。在这一背景下,如何科学评估城市区域内的交通可达性,成为了城市规划、交通管理和公共政策制定中的重要议题。作为中国东南沿海的重要港口城市,厦门以其独特的地理优势和快速的城市发展…

数据基座觉醒!大数据+AI如何重构企业智能决策金字塔(下)

1. 数据架构的量子跃迁 1.1 从线性堆叠到立体网络 传统六层架构正在经历基因重组。某智能家居企业将数据流转路径重构为三维拓扑网络后&#xff0c;新品研发周期从18个月压缩至9个月。这个改造的核心在于打破数据层间的物理隔离&#xff0c;让原始数据流能直接触达决策中枢。…

HTML5实现简洁的端午节节日网站源码

HTML5实现简洁的端午节节日网站源码 前言一、设计来源1.1 网站首页界面1.2 端午由来界面1.3 节日活动界面1.4 传统美食界面1.5 民俗文化界面1.6 登录界面1.7 注册界面 二、效果和源码2.1 动态效果2.2 源代码 结束语 HTML5实现简洁的端午节节日网站源码&#xff0c;酷炫的大气简…

复旦提出自适应Reasoning方法ARM,“能屈能伸”

为什么需要“自适应推理”&#xff1f; LLM 虽然聪明&#xff0c;但有个“学霸病”——不管题目难易&#xff0c;都要写满解题过程。比如问“11&#xff1f;”&#xff0c;它可能从宇宙起源开始推导&#xff0c;这就是论文提到的“过思考&#xff08;overthinking&#xff09;”…

如何使用 Elastic 检测恶意浏览器扩展

作者&#xff1a;Aaron Jewitt 当你的 CISO 问你某个特定浏览器扩展是否曾经被安装在任何工作站上时&#xff0c;你能多快给出正确的答案&#xff1f;恶意浏览器扩展是一个重大威胁&#xff0c;许多组织却无法管理或检测它们。本文介绍了 Elastic 信息安全团队如何使用 osquery…

[网页五子棋][匹配模式]创建房间类、房间管理器、验证匹配功能,匹配模式小结

文章目录 创建房间类创建房间类实现房间管理器 实现匹配器(3)验证匹配功能问题&#xff1a;匹配按钮不改变验证多开 小结 创建房间类 LOL&#xff0c;通过匹配的方式&#xff0c;自动给你加入到一个房间&#xff0c;也可手动创建游戏房间 这一局游戏&#xff0c;进行的“场所…

LangChain【3】之进阶内容

文章目录 说明一 LangChain Chat Model1.1 少量示例提示(Few-Shot Prompting)1.2 Few-Shot示例代码1.3 示例选择器&#xff08;Eample selectors&#xff09;1.4 ExampleSelector 类型1.5 ExampleSelector案例代码1.6 LangServe工具1.7 LangServe安装1.8 langchain项目结构1.9 …

LangChain-自定义Tool和Agent结合DeepSeek应用实例

除了调用LangChain内置工具外&#xff0c;也可以自定义工具 实例1&#xff1a; 自定义多个工具 from langchain.agents import initialize_agent, AgentType from langchain_community.agent_toolkits.load_tools import load_tools from langchain_core.tools import tool, …