OpenEMMA: 打破Waymo闭源,首个开源端到端多模态模型

article/2025/6/14 16:13:51

1. 概述

OpenEMMA(Open-source End-to-end Multimodal Model for Autonomous driving)是由德州农工大学、密歇根大学和多伦多大学联合推出的开源端到端自动驾驶多模态模型框架,旨在复现并开源 Waymo 旗下 EMMA 系统的核心思路与方法。

该框架基于预训练的多模态大型语言模型(MLLMs),结合视觉感知和历史驾驶状态,实现对复杂驾驶场景的推理、判断和轨迹规划。借助“链式思维推理”(Chain-of-Thought Reasoning)机制,OpenEMMA 在自动驾驶任务中实现了前所未有的解释性和精度,显著提升了模型在轨迹生成与感知理解方面的能力。此外,框架集成了专门优化的 YOLO 模型用于高精度的 3D 边界框预测,极大地增强了空间感知能力。

OpenEMMA 不仅为学术研究和工业部署提供了坚实的技术基座,更推动了自动驾驶系统的开放化、透明化发展。

  • 📄 官方论文:arXiv:2412.15208

  • 💻 GitHub 开源地址: https://github.com/taco-group/OpenEMMA

2. 核心技术(技术原理)

OpenEMMA 的核心技术融合了多模态大模型(MLLM)的推理能力与专用视觉模型的高精度感知能力。整个系统围绕“场景理解—行为决策—轨迹预测—对象检测”四个关键步骤构建,具有高度可解释性和工程实用性。
在这里插入图片描述

2.1. 基于多模态大模型的链式思维推理

在第一阶段,系统输入的是车辆前视摄像头捕捉到的图像,以及车辆过去五秒钟的速度和行驶曲率信息。然后,通过预先设计的任务提示(prompt),引导 MLLM 模拟驾驶员的思维过程,分步骤分析当前驾驶场景。

具体包括三个方面:

  1. 驾驶意图推断:系统会判断当前道路条件下车辆应采取的行为,例如直行、变道、左转或右转,并判断是否需要减速或加速;

  2. 场景理解描述:识别交通信号、车道线、前方行人或车辆等关键信息,生成简洁明了的自然语言场景描述;

  3. 关键对象分析:定位场景中需要特别关注的道路使用者,比如穿越马路的行人或突然变道的车辆,并分析这些对象对驾驶决策的影响。

这部分不仅完成了对环境的感知,更实现了人类类似的“解释型”推理,为接下来的行为规划打下清晰基础。

2.2. 可解释的轨迹预测机制

在获得场景解释和行为意图后,系统会进一步预测未来几秒内的行驶路径。这一过程不再是“直接输出目标点”,而是先预测每一时刻的速度变化与转向趋势,再通过这些中间变量推导出完整的车辆轨迹。

这种方式类似人类驾驶时的操作:我们不会直接规划终点位置,而是基于“踩多少油门”“打多少方向盘”来不断调整车的运动轨迹。OpenEMMA 的这一设计,使得轨迹生成过程具备更高的可控性与可解释性,也便于未来引入人类反馈机制。

2.3. 专用视觉模型辅助的 3D 目标检测

虽然 MLLMs 在语言理解和整体场景推理上表现优秀,但在精确的三维空间定位任务中仍存在明显不足。为此,OpenEMMA 额外集成了一个专注于单目图像 3D 目标检测的轻量级模型——YOLO3D。

该模型专为单张图像设计,不依赖时间序列信息,能够快速识别图像中所有关键交通参与者的位置、尺寸与朝向。其核心技术在于将二维检测框与三维边界框进行对齐,从而提升空间定位的精度。

这种“通用模型 + 专业模块”的架构设计,使得系统在保持高推理能力的同时,也具备可靠的感知能力,显著提升了整体的安全性和落地能力。

3. 主要功能(系统能力)

OpenEMMA 的整体系统提供了以下几个关键功能模块:

  1. 端到端轨迹规划
    从摄像头图像和自车状态直接学习未来的驾驶动作,完全跳过中间的手工规则和符号化决策模块,实现真正意义上的端到端控制。

  2. 多模态输入处理
    系统同时接收图像和文本格式的状态历史信息,并将驾驶任务转化为一个“视觉问答”(VQA)任务,充分利用 MLLM 的语言推理能力。

  3. 人类可解释的推理输出
    借助链式思维和明确的提示,系统不仅输出轨迹,还能同步输出对当前场景的结构化解释,使其结果具备人类可读性和决策透明性。

  4. 高精度 3D 目标检测
    通过 YOLO3D 实现精准的 3D 道路目标检测,弥补 MLLM 在空间定位方面的不足,并为路径规划提供更可靠的障碍物信息。


http://www.hkcw.cn/article/ofiZkOfQMa.shtml

相关文章

学习STC51单片机26(芯片为STC89C52RCRC)

每日一言 真正的强者,不是没有眼泪,而是含着泪依然奔跑。 硬件:4G模块 这个是接线原理,我们也只要知道这个4根线的连接就好了,我们也是连接到USB转TTL的模块上 要插卡哈......... 随后我们下载一个叫做亿佰特的调试助…

GROM快速上手

🐾 个人主页 🐾 阿松爱睡觉,横竖醒不来 🏅你可以不屠龙,但不能不磨剑🗡 目录 一、概要二、上手步骤(一)安装 GORM(二)连接数据库(三)定…

MATLAB仿真生成无线通信网络拓扑推理数据集

一、数据集生成程序 %创建时间:2025年6月3日 %用途:生成不同节点样本,统计稀疏性约束情况 %zhouzhichaoclose all clearfor n [20,30,40,50]dataset_n 100;nodes_P ones(n,1);for Sampling_M [3000]%获取一帧信号及对应功率[ack,fs] ac…

【OCCT+ImGUI系列】012-Geom2d_AxisPlacement

Geom2d_AxisPlacement 教学笔记 一、类概述 Geom2d_AxisPlacement 表示二维几何空间中的一个坐标轴(轴系),由两部分组成: gp_Pnt2d:原点(Location)gp_Dir2d:单位方向向量&#xff…

NodeMediaEdge任务管理

NodeMediaEdge任务管理 简介 NodeMediaEdge是一款部署在监控摄像机网络前端中,拉取Onvif或者rtsp/rtmp/http视频流并使用rtmp/kmp推送到公网流媒体服务器的工具。 在未使用NodeMediaServer的情况下,或是对部分视频流需要单独推送的需求,也可…

ROS2学习(18)------ROS2 Rviz工具使用说明

操作系统:ubuntu22.04 IDE:Visual Studio Code 编程语言:C11 ROS版本:2 ROS 2 中的 Rviz(Robot Visualization)是一个强大的三维可视化工具,用于显示来自 ROS 系统的各种传感器数据、路径规划结果、机器人…

安科瑞APD300:多模态融合的智能局放监测新标杆

安科瑞顾强 在电网安全运行的严密链条中,开关柜、环网柜等高压设备如同关键节点,其内部绝缘状态的完好性直接决定着电力系统的整体稳定。局部放电(PD)作为绝缘劣化的早期、灵敏征兆,若能及时捕捉和精准识别&#xff0…

Office文档图片批量导出工具

软件介绍 本文介绍一款专业的Office文档图片批量导出工具。 软件特点 这款软件能够批量导出Word、Excel和PPT中的图片,采用绿色单文件设计,体积小巧仅344KB。 基本操作流程 使用方法十分简单:直接将Word、Excel或PPT文件拖入软件&#xf…

网络编程(计算机网络基础)

认识网络 1.网络发展史 ARPnetA(阿帕网)->internet(因特网)->移动互联网->物联网 2.局域网与广域网 局域网 概念:的缩写是LAN(local area network),顾名思义,是个本地的网络,只能实现小范围短距…

godwork_ AT 5.2 摄影测量空三数据处理软件。

1.平差技术,平差模块不依赖PATB、Bingo等国外技术 2.采用特征匹配,对国内无人机数据具有很强的适应性,对测区大小、形状、重叠度没有严格限制,适用于大偏角影像、大高差地区。 3.对飞行方向没有要求,无需旋转影像等预…

《仿盒马》app开发技术分享-- 个人中心关于逻辑完善(端云一体)

开发准备 上一节我们针对首页的一些静态按钮做了一些功能上的完善,这一节我们要针对已有的功能做一下逻辑完善,经过测试,在一开始的登录中我们登录之后当前页面的状态并不能马上的展示出来,并且缺少退出功能,退出后我…

UniRig:如何在矩池云一站式解决 3D 模型绑定难题

在 3D 动画制作中,绑定(Rigging)是一个至关重要但复杂耗时的步骤。它包括为 3D 模型创建骨架并分配蒙皮权重,以实现流畅的动画效果。由清华大学与 Tripo 联合开发的 UniRig 框架,为这一难题提供了全新的解决方案。 什…

二分查找和二分答案(基础)

目录 前言 二分的本质 二分的代码实现 二分查找 题目 洛谷 P1571 眼红的Medusa 洛谷 P1102 A-B 数对 洛谷 P1678 烦恼的高考志愿 OpenJudge 01:查找最接近的元素 二分答案 实现 题目 洛谷 P1824 进击的奶牛 洛谷 P1182 数列分段 Section || 洛谷 P128…

三极管和MOS的三种状态命名的区别

前言 还记得大学用MOS做仿真,来进行原理说明时,总是会将三极管和MOS的叫法搞混。本篇文章就重新回顾,加深下印象。 1. 三极管(BJT)的三个工作状态 BJT 是电流控制型器件,其工作状态由 基极电流 IB​ 和 集…

SKUA-GOCAD入门教程-第八节 线的创建与编辑2

8.1.3根据线创建曲线 (1)从线生成线 这个命令可以将一组曲线合并为一条曲线。每个输入曲线都会成为新曲线内的一个部分。 1、选择 Curve commands > New > Curves 打开对话框。 图1 根据曲线创建曲线 在“name”框中:输入新建线的名称。在“Curves”框中:输入用于…

关于easyx头文件

一、窗口创建 &#xff08;1&#xff09;几种创建方式 #include<easyx.h>//easyx的头文件 #include<iostream> using namespace std;int main() {//创建一个500*500的窗口//参数为&#xff1a;长度&#xff0c;宽度&#xff0c;是否显示黑框&#xff08;无参为不…

基于VLC的Unity视频播放器(四)

上篇文章中提到的问题 播放某个m3u8地址时会嘎掉&#xff0c;想办法解决了一下&#xff0c;很粗暴的&#xff0c;先SetFormat&#xff0c;再Stop&#xff0c;最后再Play&#xff0c;能用…… if (player ! null && player.GetSize() 0) {player.GetSize((w, h) >…

邢台山峰特种橡胶制品有限公司专题报道

在河北任泽经济开发区的现代化厂房里&#xff0c;全自动硫化机正以0.01毫米的精度压制着油封。这里生产的特种橡胶制品&#xff0c;已悄然进入全球90多个国家的工业供应链。作为邢台市橡塑新材料产业集群的企业&#xff0c;邢台山峰特种橡胶制品有限公司用25项专利技术&#xf…

单文件制作工具 7.0.2.3856

【​本章下载一】&#xff1a;https://pan.xunlei.com/s/VORkoGbMcUDScW2C5kyqJla8A1?pwdegvq# 【​本章下载二】&#xff1a;https://pan.xunlei.com/s/VORkoGbMcUDScW2C5kyqJla8A1?pwdegvq# 【百款黑科技】&#xff1a;https://ucnygalh6wle.feishu.cn/wiki/HPQywvPc7iLZu1…

打破 GIS 数据处理瓶颈!GISBox 的九种切片方式

在地理信息系统&#xff08;GIS&#xff09;领域&#xff0c;数据格式的多样性和复杂性一直是制约高效处理与应用的瓶颈。从倾斜摄影模型到BIM设计图纸&#xff0c;从地形影像到点云数据&#xff0c;每一种数据类型都需要精准且高效的切片处理&#xff0c;以实现流畅的三维可视…