ICML 2025 Spotlight | 机器人界的「Sora」!让机器人实时进行未来预测和动作执行!

article/2025/6/20 9:42:17

标题:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

作者:Yucheng Hu, Yanjiang Guo, Pengchao Wang, Xiaoyu Chen, Yen-Jen Wang, Jianke Zhang, Koushil Sreenath, Chaochao Lu, Jianyu Chen

机构:Tsinghua University、UC Berkeley、Shanghai Artificial Intelligence Laboratory、Shanghai Qi Zhi Institute、Robot Era

原文链接:https://arxiv.org/abs/2412.14803

代码链接:https://video-prediction-policy.github.io/

  1. 导读
    视觉表示在开发通用机器人策略中起着至关重要的作用。以前的视觉编码器,通常用单图像重建或双图像对比学习进行预训练,倾向于捕捉静态信息,经常忽略对具体化任务至关重要的动态方面。最近,视频扩散模型(VDM)展示了预测未来帧的能力,并展示了对物理世界的深刻理解。我们假设VDM固有地产生包含当前静态信息和预测的未来动态的视觉表示,从而为机器人动作学习提供有价值的指导。基于这一假设,我们提出了视频预测策略(VPP ),它根据VDM内部预测的未来表示来学习隐式逆动力学模型。为了预测更精确的未来,我们根据机器人数据集和互联网人类操作数据微调预训练的视频基础模型。在实验中,VPP在Calvin ABC-D泛化基准上取得了18.6%的相对改进,并证明了复杂现实世界灵巧操作任务的成功率提高了31.6%。

  2. 效果展示
    视频预测模型中的视觉表示明确表达了当前和未来帧,为实体代理提供了有价值的前瞻性信息。以前的视觉编码器没有明确的未来表示。

图片

我们对模拟和真实世界的机器人任务进行了广泛的实验,以评估视频预测策略的性能。模拟环境包括CALVIN基准和MetaWorld基准,而现实世界的任务包括熊猫手臂操作和XHand灵巧手操作。

图片

定量结果对比:

图片

  1. 引言
    构建能够解决多种任务的通用机器人策略是一个快速发展的研究领域。在这些通用策略中,一个关键组件是视觉编码器,它从像素观测中捕获视觉信息。许多研究聚焦于为具身智能体优化视觉表征,通常利用互联网视频数据集以及自监督技术,例如单图像重建、双图像对比学习以及图像 - 文本对比学习。尽管这些视觉预训练方法在具身任务中已展现出成功,但由于它们通常仅对单个或两个采样图像进行操作,可能无法充分利用顺序视频数据集中编码的动态信息。

最近,强大的视频扩散模型(VDMs)在视频生成任务中取得了令人瞩目的成果。视频扩散模型并非对单张图像或图像对进行预训练操作,而是直接对整个视频序列进行建模。文本引导的视频预测模型(TVPs)甚至能够基于当前观测和指令预测未来帧,展现出对物理动态的良好理解。

受TVP模型强大预测能力的启发,我们假设其本身包含有价值的物理动态知识,并能为具身智能体生成更有效的视觉表征。我们深入研究了TVP模型内部的视觉表征。这些表征通常以张量形式构建,维度为(T, H, W),明确表示1个当前步骤和(T - 1)个预测的未来步骤,其中H和W分别对应图像表征的高度和宽度。相比之下,以往的视觉编码器并未明确捕获未来表征。基于这一区别,我们将视频扩散模型中的这些潜在变量称为“预测性视觉表征”。

我们的关键见解是,下游策略可以通过在预测性表征中跟踪机器人的运动来隐式学习逆动力学模型。只要视频模型能够准确预测不同任务的未来场景,策略便可以通过隐式跟踪机械臂的位置来生成适当的动作。如此一来,我们便能够将视频预测模型的泛化能力迁移到机器人策略中。我们仅需少量演示,即可将机器人的动作空间与视觉空间对齐。

  1. 主要贡献
    我们引入了视频预测策略(VPP),该策略采用两阶段学习过程:首先,我们使用互联网人类和机器人操作数据将通用视频扩散模型微调为文本引导的视频预测(TVP)模型。这一步骤旨在开发一个可控的视频生成模型,以提高操作领域的预测能力。在第二阶段,我们学习一个以TVP模型的预测性表征为条件的逆动力学模型。由于我们直接使用内部表征,并避免了先前工作中所需的多个去噪步骤,VPP能够以高频方式在闭环模式下运行。我们还对VDM内部的表征进行了可视化,并确认它们有效捕获了关于未来演化的关键信息。

在实验中,VPP在两个模拟环境和两个真实场景设置中始终优于其他基线算法,证明了我们方法的有效性。值得注意的是,与之前的最先进方法相比,VPP在Calvin ABC→D基准测试中取得了41.5%的提升。在真实实验中,VPP在高维灵巧手操作任务上的成功率比最强的基线方法提高了31.6%。

  1. 方法
    我们描述了视频预测策略的两阶段学习过程。最初,我们在不同的操作数据集上训练文本引导视频预测(TVP)模型,以利用来自互联网数据的物理知识;随后,我们设计网络来聚合TVP模型中的预测视觉表示,并输出最终的机器人动作。

图片

  1. 实验结果
    图片
图片

  2. 总结
    我们引入了视频预测策略(VPP),这是一种学习通用机器人策略的新颖方法。VPP在VDM内的预测表示条件下学习隐式逆动力学模型,并在模拟和现实世界任务中产生一致的改进。随着视频生成模型变得越来越强大,我们的目标是充分释放视频模型在构建物理智能方面的潜力,并强调视频生成模型在具身任务中的潜力。


http://www.hkcw.cn/article/QHgwqTMiul.shtml

相关文章

「 扑翼飞行器 」悬停飞行的信号串联滤波器设计

一、前言 小白在设计扑翼飞行器悬停算法过程中,设计了三种滤波器串联使用,总结如下。 二、正文 陷波滤波器 (Notch @30 Hz) 目的:针对扑翼机构或传感系统中常见的机械谐振或结构共振噪声进行有源抑制。 工作原理:在归一化频率 (假设采样率 , HZ)处设计一个陷波(notch)…

RL 基础 (待补充)

注:本文仅用于自学习笔记备忘,不做任何分享和商业用途。 主要参考资料: 蘑菇书EasyRLA (Long) Peek into Reinforcement Learning | LilLog 第1章 强化学习基础 RL算法分类: Model-based: Rely on the model of the environm…

Redis7底层数据结构解析

redisObject 在 Redis 的源码中,Redis 会将底层数据结构(如 SDS、hash table、skiplist 等)统一封装成一个对象,这个对象叫做 redisObject,也简称 robj。 typedef struct redisObject {unsigned type : 4; // 数…

Kafka 的 ISR 机制深度解析:保障数据可靠性的核心防线

在 Kafka 的消息处理体系中,数据的可靠性和高可用性是至关重要的目标。而 ISR(In-Sync Replicas,同步副本)机制作为 Kafka 实现这一目标的关键技术,在消息复制、故障容错等方面发挥着核心作用。接下来,我们…

cusor无限续杯

githut开源网址:https://github.com/yuaotian/go- 敲黑板下面是主要步骤和注意事项! step1:cursor软件退出登录 step2:cursor网页端删除账号 step3:运行命令(注意:用管理员身份运行windows powershell,不能用cmd&…

360浏览器设置主题

设置默认主题: 1.右上角有个皮肤按钮 进来后,右边有个回复默认皮肤按钮。 换成彩色皮肤后,找按钮不太好找了。

DAY 17 常见聚类算法

目录 DAY 17 常见聚类算法1.聚类的指标2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类3.三种算法对应的流程作业: 对心脏病数据集进行聚类。 DAY 17 常见聚类算法 import seaborn as sns from sklearn.decomposition import PCA from sklearn.prepro…

MySQL存储架构深度解析:从引擎选型到云原生实践(2025最新版)

引言 在数字经济时代,MySQL作为全球使用最广泛的关系型数据库,其存储技术直接影响着全球70%以上互联网企业的数据处理能力。2025年云原生数据库市场规模预计突破$50B,而MySQL存储引擎的选型与优化仍是DBA的核心课题。本文将结合最新行业实践…

Cesium快速入门到精通系列教程

一、打造第一个Cesium应用 1、官方渠道下载Cesium(可选择历史版本) ​​GitHub Releases页面​​ 访问 Cesium GitHub Releases,此处列出了所有正式发布的版本。 通过标签(如 v1.95.0)选择目标版本,下载…

Unity 模拟高度尺系统开发详解——实现拖动、范围限制、碰撞吸附与本地坐标轴选择

内容将会持续更新,有错误的地方欢迎指正,谢谢! Unity 模拟高度尺系统开发详解——实现拖动、范围限制、碰撞吸附与本地坐标轴选择 TechX 坚持将创新的科技带给世界! 拥有更好的学习体验 —— 不断努力,不断进步,不…

Spark核心:单跳转换率计算全解析

目录 代码功能解释与问题分析 关键问题分析 修正与拓展方案 1. 修正分子计算逻辑 2. 修正分母计算逻辑 3. 完善转换率计算 4. 优化代码结构 5. 性能优化 修正后的代码示例 关键改进点说明 测试与验证建议 package core.reqimport org.apache.spark.rdd.RDD import o…

基于STM32单片机CO气体检测

基于STM32单片机CO检测 (仿真+程序+原理图) 功能介绍 具体功能: 1.MQ-7传感器检测CO气体浓度; 2.LCD1602实时显示气体浓度及上限值; 3.气体浓度超过设定对应上限值,电机转动&…

MySQL事务

事务(Transaction)是数据库管理系统中一组操作的集合,作为一个单元要么全部成功,要么全部失败,确保数据的一致性和完整性。它像一个“原子操作单元”,遵循ACID原则(原子性、一致性、隔离性、持久…

C# 反射与特性:深入探索运行时类型系统与元数据编程

在C#开发中,我们通常编写静态类型的代码——编译器在编译时就知道所有类型信息。然而,.NET框架提供了一套强大的机制,允许我们在运行时检查、发现和使用类型信息,这就是反射(Reflection)。而与反射密切相关的另一项技术是特性(Att…

腾讯面试手撕题:返回行递增有序矩阵第k小的元素

题目 给定一个n行n列的矩阵,这个矩阵的每一行是递增有序的,求这个矩阵中第k小的元素。 解答 优解 基于二分查找和按行统计小于等于目标值的元素个数。算法的时间复杂度为,其中D是矩阵中元素值域的范围(即最大值与最小值的差&a…

【PostgreSQL 02】PostgreSQL数据类型革命:JSON、数组与地理信息让你的应用飞起来

PostgreSQL数据类型革命:JSON、数组与地理信息让你的应用飞起来 关键词 PostgreSQL高级数据类型, JSONB, 数组类型, PostGIS, 地理信息系统, NoSQL, 文档数据库, 空间数据, 数据库设计, PostgreSQL扩展 摘要 PostgreSQL的高级数据类型是其区别于传统关系数据库的核心…

[Windows] 剪映 视频编辑处理

附链接:夸克网盘分享(点击蓝色字体自行保存下载)

NW994NX734美光固态闪存NX737NX740

NW994NX734美光固态闪存NX737NX740 在数字化浪潮汹涌澎湃的今天,数据存储技术如同一座坚实的基石,支撑着科技世界的大厦。美光固态闪存以其卓越的性能和创新的技术,在存储领域占据着重要的地位。本文将深入剖析NW994、NX734、NX737以及NX740…

C# 类和继承(使用基类的引用)

使用基类的引用 派生类的实例由基类的实例和派生类新增的成员组成。派生类的引用指向整个类对象,包括 基类部分。 如果有一个派生类对象的引用,就可以获取该对象基类部分的引用(使用类型转换运算符把 该引用转换为基类类型)。类…

VMvare 创建虚拟机 安装CentOS7,配置静态IP地址

创建虚拟机 安装CentOS7 设置网络模式 设置静态ip vim /etc/sysconfig/network-scripts/ifcfg-ens33 systemctl restart network