Diffusion Planner:扩散模型重塑自动驾驶路径规划(ICLR‘25)

article/2025/7/31 10:35:03

1. 概述

2025年2月14日,清华大学AIR智能产业研究院联合毫末智行、中科院自动化所和香港中文大学团队,在ICLR 2025会议上发布了Diffusion Planner——一种创新性的基于Diffusion Transformer的自动驾驶规划模型架构。该系统联合建模周车运动预测与自车行为规划,显著提升了复杂场景下的决策效率与稳定性,克服了传统学习方法对后处理的依赖,推动了自动驾驶系统从“黑盒生成”走向“可控可调”的新时代。

  • 项目地址:https://zhengyinan-air.github.io/Diffusion-Planner/

2. 核心技术

在这里插入图片描述

该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构,高效处理复杂场景输入,并联合建模周车运动预测与自车规划中的多模态驾驶行为,充分发挥扩散模型在闭环规划中的潜力,解决了现有基于学习的规划方法对后处理的严重依赖问题。此外,借助扩散模型的引导机制,模型在部署阶段能够灵活适应不同的驾驶需求,提高泛化能力与实用性。

2.1 轨迹生成为核心建模任务

  • 将自车规划与周车运动预测统一为 未来轨迹生成任务;
  • 以协同建模的方式模拟多车交互行为,捕捉动态交通环境中的 自然协同行为模式;
  • 避免传统多阶段预测+规划框架中的信息割裂和误差累积问题。

2.2. 基于 Diffusion Transformer 的生成式轨迹建模

  • 架构核心为 Diffusion Transformer(DiT),融合扩散建模与注意力机制;
  • 采用扩散模型的前向加噪与反向去噪过程生成未来轨迹;
  • 具备强建模能力,适应复杂多模态交通行为。

2.3 多源感知输入结构化表达

  • 使用轻量级编码器提取以下环境感知数据:
    • 周车历史轨迹与当前状态;
    • 道路拓扑结构与静态障碍物;
    • 目标导航信息;
  • 通过 交叉注意力机制 与加噪后的初始轨迹进行深度融合,提升轨迹生成准确性。

2.4. 起始状态引导

  • 避免模型复现已有历史轨迹,破坏规划多样性;
  • 仅使用 自车当前位姿(位置+朝向) 与周车当前状态,拼接进初始轨迹;
  • 提供有效初态引导,减轻去噪任务难度,提升 闭环执行稳定性。

2.5. 扩散引导机制,偏好可控轨迹生成

  • 在测试/部署阶段引入可控目标(如安全性、舒适性、速度偏好等);
  • 多偏好通过 加权组合方式灵活调控;
  • 可启用/禁用偏好机制以适配不同场景需求,提升策略灵活性与适应性。

3. 商业前景

  • Robotaxi 和 Robo-Logistics(无人货运):复杂城市场景下对灵活轨迹生成的刚需;
  • 乘用车辅助驾驶系统(L2+ / L3):需要高安全、稳定、可调控的规划策略;
  • 智能交通系统(ITS)仿真平台:用于城市交通建模与仿真;
  • 自适应路径规划机器人:在城市配送、园区清洁、巡检等场景中部署。

http://www.hkcw.cn/article/APsrBlDxFQ.shtml

相关文章

财管5-投资项目的评价指标现金流量构成

一、投资项目评价指标 独立项目评价指标包括净现值(NPV)、现值指数(PI)、内含报酬率(IRR)、回收期(PP)、会计报酬率; 1、净现值 计算NPV 未来现金流量的现值 - 原始投…

【Bluedroid】蓝牙启动之 l2c_init 源码解析

蓝牙 L2CAP(逻辑链路控制和适配协议)层是蓝牙协议栈的核心传输层,负责为上层协议(如 ATT、SMP、GATT)提供逻辑通道、服务路由和流量控制等关键功能。本文围绕 L2CAP 层的五大核心数据结构(全局控制块tL2C_C…

NACOS 配置中心--数据隔离

1.实现效果 名称空间 -- 区分 多套环境 group 分组 -- 区分多种微服务 data id 数据集 -- 区分多种配置 2.新建命名空间 3.创建 group 和 data id 同逻辑 创建 test 和prod 环境配置 5.yml文件配置进行映射 server:port: 8000 spring:config:import: # 映射data id 和gro…

rtpmixsound:实现音频混音攻击!全参数详细教程!Kali Linux教程!

简介 一种将预先录制的音频与指定目标音频流中的音频(即 RTP)实时混合的工具。 一款用于将预先录制的音频与指定目标音频流中的音频(即 RTP)实时混合的工具。该工具创建于 2006 年 8 月至 9 月之间。该工具名为 rtpmixsound。它…

【java面试】redis篇

一、适用场景 问:你在项目中,都用到了redis,你在最近的哪些场景中使用了redis? 答:(结合实际项目情况) (一)缓存 查询流程: 请求路径: 一个get请求&#x…

行业分析---小米汽车2025第一季度财报

1 背景 最近几年是新能源汽车的淘汰赛,前短时间比亚迪再次开始了降价,导致一片上市车企的股价大跌,足见车圈现在的敏感度。因此笔者会一直跟踪新势力车企的财报状况,对之前财报分析感兴趣的读者朋友可以参考以下博客:…

TensorFlow深度学习实战(19)——受限玻尔兹曼机

TensorFlow深度学习实战(19)——受限玻尔兹曼机 0. 前言1. 受限玻尔兹曼机1.1 受限玻尔兹曼机架构1.2 受限玻尔兹曼机的数学原理 2. 使用受限玻尔兹曼机重建图像3. 深度信念网络小结系列链接 0. 前言 受限玻尔兹曼机 (Restricted Boltzmann Machine, RB…

设计模式——桥接设计模式(结构型)

摘要 桥接设计模式是一种结构型设计模式,用于将抽象与实现解耦,使二者可以独立变化。它通过将一个类拆分为“抽象”和“实现”两部分,并通过桥接关系组合,避免了类继承层次结构过于庞大。桥接模式包含抽象类、扩充抽象类、实现类…

java反射

简介 获取Class 误区 解释一下 “类” 和 “Class对象” 的区别,以及为什么每个类都有关联的 Class 对象: 🧩 核心概念:类 vs Class对象 想象你有一本《汽车使用说明书》: 类 这本说明书本身(纸上的文…

C++ 之 多态 【虚函数表、多态的原理、动态绑定与静态绑定】

目录 前言 1.多态的原理 1.1虚函数表 1.2派生类中的虚表 1.3虚函数、虚表存放位置 1.4多态的原理 1.5多态条件的思考 2.动态绑定与静态绑定 3.单继承和虚继承中的虚函数表 3.1单继承中的虚函数表 3.2多继承(非菱形继承)中的虚函数表 4.问答题 前言 需要声明的&#x…

28 C 语言作用域详解:作用域特性(全局、局部、块级)、应用场景、注意事项

1 作用域简介 作用域定义了代码中标识符(如变量、常量、数组、函数等)的可见性与可访问范围,即标识符在程序的哪些位置能够被引用或访问。在 C 语言中,作用域主要分为三类: 全局作用域局部作用域块级作用域 需注意&am…

day03-Vue-Element

1 Ajax 1.1 Ajax介绍 1.1.1 Ajax概述 我们前端页面中的数据,如下图所示的表格中的学生信息,应该来自于后台,那么我们的后台和前端是互不影响的2个程序,那么我们前端应该如何从后台获取数据呢?因为是2个程序&#xf…

智慧交通设计方案

该文档是智慧交通设计方案,交通设计位于综合交通规划后、道路工程设计前,目标是优化交通系统及设施,实现交通安全、高效、可持续发展。内容涵盖区域交通组织优化(含需求管理、速度管理等)、平面交叉口设计(要素、改善措施)、专项交通设计(公共交通、慢行系统等)、智能…

SAP学习笔记 - 开发17 - 前端Fiori开发 Component 配置(组件化)

上一章讲了Fiori前端开发中的国际化。 SAP学习笔记 - 开发16 - 前端Fiori开发 Properties文件(国际化) ,语言切换实例,Fiori 国际化(常用语言列表,关键规则,注意事项)-CSDN博客 本…

leetcode刷题日记——二叉树的层平均值

[ 题目描述 ]: [ 思路 ]: BFS,通过层次遍历求得每层的和,然后取平均数,存入结果数组树中节点个数在1-10000之间,那么结果数组最大为10000个结果,层数最多为 2n-1>10000,可以推…

Google Android 14设备和应用通知 受限制的设置 出于安全考虑......

重要提示: 文中部分步骤仅适用于 Android 13 及更高版本。了解如何查看 Android 版本。 启用受限制的设置后,应用将能够访问敏感信息,而这可能使您的个人数据面临风险。除非您信任该应用的开发者,否则我们不建议您允许访问受限制…

【小米拥抱AI】小米开源视觉大模型—— MiMo-VL

MiMo-VL-7B模型的开发包含两个序贯训练过程:(1)四阶段预训练,涵盖投影器预热、视觉-语言对齐、通用多模态预训练及长上下文监督微调(SFT),最终生成MiMo-VL-7B-SFT模型;(2…

自编码器Auto-encoder(李宏毅)

目录 编码器的概念: 为什么需要编码器? 编码器什么原理? 去噪自编码器: 自编码器的应用: 特征解耦 离散隐表征 编码器的概念: 重构:输入一张图片,通过编码器转化成向量,要求再…

Claude 4 升级:从问答助手到任务执行者 | AI大咖说

Claude 4 升级:从问答助手到任务执行者 Claude 4 升级历程 2025-05-22日,Anthropic 正式发布了他们的新 AI 模型 Claude 4。这标志着 AI 不再仅仅是一个智能问答系统,而是开始具备独立完成复杂任务的能力。CEO Dario Amodei 在发布会中强调…