Diffusion Planner:扩散模型重塑自动驾驶路径规划（ICLR‘25）-海口c网

Diffusion Planner:扩散模型重塑自动驾驶路径规划（ICLR‘25）

article/2025/7/31 10:35:03

1. 概述

2025年2月14日，清华大学AIR智能产业研究院联合毫末智行、中科院自动化所和香港中文大学团队，在ICLR 2025会议上发布了Diffusion Planner——一种创新性的基于Diffusion Transformer的自动驾驶规划模型架构。该系统联合建模周车运动预测与自车行为规划，显著提升了复杂场景下的决策效率与稳定性，克服了传统学习方法对后处理的依赖，推动了自动驾驶系统从“黑盒生成”走向“可控可调”的新时代。

项目地址：https://zhengyinan-air.github.io/Diffusion-Planner/

2. 核心技术

在这里插入图片描述

该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构，高效处理复杂场景输入，并联合建模周车运动预测与自车规划中的多模态驾驶行为，充分发挥扩散模型在闭环规划中的潜力，解决了现有基于学习的规划方法对后处理的严重依赖问题。此外，借助扩散模型的引导机制，模型在部署阶段能够灵活适应不同的驾驶需求，提高泛化能力与实用性。

2.1 轨迹生成为核心建模任务

将自车规划与周车运动预测统一为未来轨迹生成任务；
以协同建模的方式模拟多车交互行为，捕捉动态交通环境中的自然协同行为模式；
避免传统多阶段预测+规划框架中的信息割裂和误差累积问题。

2.2. 基于 Diffusion Transformer 的生成式轨迹建模

架构核心为 Diffusion Transformer（DiT），融合扩散建模与注意力机制；
采用扩散模型的前向加噪与反向去噪过程生成未来轨迹；
具备强建模能力，适应复杂多模态交通行为。

2.3 多源感知输入结构化表达

使用轻量级编码器提取以下环境感知数据：
- 周车历史轨迹与当前状态；
- 道路拓扑结构与静态障碍物；
- 目标导航信息；
通过交叉注意力机制与加噪后的初始轨迹进行深度融合，提升轨迹生成准确性。

2.4. 起始状态引导

避免模型复现已有历史轨迹，破坏规划多样性；
仅使用自车当前位姿（位置+朝向）与周车当前状态，拼接进初始轨迹；
提供有效初态引导，减轻去噪任务难度，提升闭环执行稳定性。

2.5. 扩散引导机制，偏好可控轨迹生成

在测试/部署阶段引入可控目标（如安全性、舒适性、速度偏好等）；
多偏好通过加权组合方式灵活调控；
可启用/禁用偏好机制以适配不同场景需求，提升策略灵活性与适应性。

3. 商业前景

Robotaxi 和 Robo-Logistics（无人货运）：复杂城市场景下对灵活轨迹生成的刚需；
乘用车辅助驾驶系统（L2+ / L3）：需要高安全、稳定、可调控的规划策略；
智能交通系统（ITS）仿真平台：用于城市交通建模与仿真；
自适应路径规划机器人：在城市配送、园区清洁、巡检等场景中部署。

http://www.hkcw.cn/article/APsrBlDxFQ.shtml

相关文章

财管5-投资项目的评价指标现金流量构成

财管5-投资项目的评价指标现金流量构成

一、投资项目评价指标独立项目评价指标包括净现值（NPV）、现值指数（PI）、内含报酬率（IRR）、回收期（PP）、会计报酬率； 1、净现值计算NPV 未来现金流量的现值 - 原始投…

阅读更多...

【Bluedroid】蓝牙启动之 l2c_init 源码解析

【Bluedroid】蓝牙启动之 l2c_init 源码解析

蓝牙 L2CAP（逻辑链路控制和适配协议）层是蓝牙协议栈的核心传输层，负责为上层协议（如 ATT、SMP、GATT）提供逻辑通道、服务路由和流量控制等关键功能。本文围绕 L2CAP 层的五大核心数据结构（全局控制块tL2C_C…

阅读更多...

NACOS 配置中心--数据隔离

NACOS 配置中心--数据隔离

1.实现效果名称空间 -- 区分多套环境 group 分组 -- 区分多种微服务 data id 数据集 -- 区分多种配置 2.新建命名空间 3.创建 group 和 data id 同逻辑创建 test 和prod 环境配置 5.yml文件配置进行映射 server:port: 8000 spring:config:import: # 映射data id 和gro…

阅读更多...

rtpmixsound：实现音频混音攻击！全参数详细教程！Kali Linux教程！

rtpmixsound：实现音频混音攻击！全参数详细教程！Kali Linux教程！

简介一种将预先录制的音频与指定目标音频流中的音频（即 RTP）实时混合的工具。一款用于将预先录制的音频与指定目标音频流中的音频（即 RTP）实时混合的工具。该工具创建于 2006 年 8 月至 9 月之间。该工具名为 rtpmixsound。它…

阅读更多...

【java面试】redis篇

【java面试】redis篇

一、适用场景问：你在项目中，都用到了redis,你在最近的哪些场景中使用了redis？ 答：（结合实际项目情况） （一）缓存查询流程： 请求路径： 一个get请求&#x…

阅读更多...

行业分析---小米汽车2025第一季度财报

行业分析---小米汽车2025第一季度财报

1 背景最近几年是新能源汽车的淘汰赛，前短时间比亚迪再次开始了降价，导致一片上市车企的股价大跌，足见车圈现在的敏感度。因此笔者会一直跟踪新势力车企的财报状况，对之前财报分析感兴趣的读者朋友可以参考以下博客：…

阅读更多...

TensorFlow深度学习实战（19）——受限玻尔兹曼机

TensorFlow深度学习实战（19）——受限玻尔兹曼机

TensorFlow深度学习实战（19）——受限玻尔兹曼机 0. 前言1. 受限玻尔兹曼机1.1 受限玻尔兹曼机架构1.2 受限玻尔兹曼机的数学原理 2. 使用受限玻尔兹曼机重建图像3. 深度信念网络小结系列链接 0. 前言受限玻尔兹曼机 (Restricted Boltzmann Machine, RB…

阅读更多...

设计模式——桥接设计模式（结构型）

设计模式——桥接设计模式（结构型）

摘要桥接设计模式是一种结构型设计模式，用于将抽象与实现解耦，使二者可以独立变化。它通过将一个类拆分为“抽象”和“实现”两部分，并通过桥接关系组合，避免了类继承层次结构过于庞大。桥接模式包含抽象类、扩充抽象类、实现类…

阅读更多...

java反射

java反射

简介获取Class 误区解释一下 “类” 和 “Class对象” 的区别，以及为什么每个类都有关联的 Class 对象： 🧩 核心概念：类 vs Class对象想象你有一本《汽车使用说明书》： 类这本说明书本身（纸上的文…

阅读更多...

C++ 之多态【虚函数表、多态的原理、动态绑定与静态绑定】

C++ 之多态【虚函数表、多态的原理、动态绑定与静态绑定】

目录前言 1.多态的原理 1.1虚函数表 1.2派生类中的虚表 1.3虚函数、虚表存放位置 1.4多态的原理 1.5多态条件的思考 2.动态绑定与静态绑定 3.单继承和虚继承中的虚函数表 3.1单继承中的虚函数表 3.2多继承(非菱形继承)中的虚函数表 4.问答题前言需要声明的&#x…

阅读更多...

Shape and boundary-aware

Shape and boundary-aware

作者未提供代码

阅读更多...

28 C 语言作用域详解：作用域特性（全局、局部、块级）、应用场景、注意事项

28 C 语言作用域详解：作用域特性（全局、局部、块级）、应用场景、注意事项

1 作用域简介作用域定义了代码中标识符（如变量、常量、数组、函数等）的可见性与可访问范围，即标识符在程序的哪些位置能够被引用或访问。在 C 语言中，作用域主要分为三类： 全局作用域局部作用域块级作用域需注意&am…

阅读更多...

day03-Vue-Element

day03-Vue-Element

1 Ajax 1.1 Ajax介绍 1.1.1 Ajax概述我们前端页面中的数据，如下图所示的表格中的学生信息，应该来自于后台，那么我们的后台和前端是互不影响的2个程序，那么我们前端应该如何从后台获取数据呢？因为是2个程序&#xf…

阅读更多...

智慧交通设计方案

智慧交通设计方案

该文档是智慧交通设计方案，交通设计位于综合交通规划后、道路工程设计前，目标是优化交通系统及设施，实现交通安全、高效、可持续发展。内容涵盖区域交通组织优化（含需求管理、速度管理等）、平面交叉口设计（要素、改善措施）、专项交通设计（公共交通、慢行系统等）、智能…

阅读更多...

SAP学习笔记 - 开发17 - 前端Fiori开发 Component 配置（组件化）

SAP学习笔记 - 开发17 - 前端Fiori开发 Component 配置（组件化）

上一章讲了Fiori前端开发中的国际化。 SAP学习笔记 - 开发16 - 前端Fiori开发 Properties文件（国际化） ，语言切换实例，Fiori 国际化（常用语言列表，关键规则，注意事项）-CSDN博客本…

阅读更多...

leetcode刷题日记——二叉树的层平均值

leetcode刷题日记——二叉树的层平均值

[ 题目描述 ]： [ 思路 ]： BFS，通过层次遍历求得每层的和，然后取平均数，存入结果数组树中节点个数在1-10000之间，那么结果数组最大为10000个结果，层数最多为 2n-1>10000，可以推…

阅读更多...

Google Android 14设备和应用通知受限制的设置出于安全考虑......

Google Android 14设备和应用通知受限制的设置出于安全考虑......

重要提示： 文中部分步骤仅适用于 Android 13 及更高版本。了解如何查看 Android 版本。启用受限制的设置后，应用将能够访问敏感信息，而这可能使您的个人数据面临风险。除非您信任该应用的开发者，否则我们不建议您允许访问受限制…

阅读更多...

【小米拥抱AI】小米开源视觉大模型—— MiMo-VL

【小米拥抱AI】小米开源视觉大模型—— MiMo-VL

MiMo-VL-7B模型的开发包含两个序贯训练过程：（1）四阶段预训练，涵盖投影器预热、视觉-语言对齐、通用多模态预训练及长上下文监督微调（SFT），最终生成MiMo-VL-7B-SFT模型；（2…

阅读更多...

自编码器Auto-encoder（李宏毅）

自编码器Auto-encoder（李宏毅）

目录编码器的概念： 为什么需要编码器？ 编码器什么原理？ 去噪自编码器: 自编码器的应用： 特征解耦离散隐表征编码器的概念： 重构：输入一张图片，通过编码器转化成向量，要求再…

阅读更多...

Claude 4 升级：从问答助手到任务执行者 | AI大咖说

Claude 4 升级：从问答助手到任务执行者 | AI大咖说

Claude 4 升级：从问答助手到任务执行者 Claude 4 升级历程 2025-05-22日，Anthropic 正式发布了他们的新 AI 模型 Claude 4。这标志着 AI 不再仅仅是一个智能问答系统，而是开始具备独立完成复杂任务的能力。CEO Dario Amodei 在发布会中强调…

阅读更多...

推荐文章