星动纪元的机器人大模型 VPP,泛化能力效果如何?与 VLA 技术的区别是什么?

article/2025/6/8 4:56:56

点击上方关注 “终端研发部

设为“星标”,和你一起掌握更多数据库知识

VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中,VPP 从超 12000 篇投稿里脱颖而出,入选占比不到 2.6% 的 Spotlight 论文。

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(ICML2025)上获得 Spotlight 认可,展现出其研究的前沿性和重要性。

VPP 基于 AIGC 视频扩散模型而来。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人 “看着答案” 行动,大大增强泛化能力。通过该模型,机器人的执行速度能够实现 “更快一步”,在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。

而VLA技术更像是给AI装了驾校教练的嘴和F1赛车手的手:既能用视觉语言模型看懂红绿灯,又能用思维链推理解释"为啥要变道"——"亲,右侧车道有外卖小哥逆行,咱们怂一点"。理想汽车的实测显示,VLA能预测几十秒后的路况,比VLM模型的7秒"金鱼记忆"强出几个量级,遇到施工路段还会自动切换成"科目五:地狱级绕桩模式

核心差异:一个靠"脑补",一个靠"唠嗑"

  1. 数据维度:

  • VPP吃的是"视频自助餐",从人类做饭到工厂流水线录像都能消化,生成的动作像抖音短视频一样丝滑;

  • VLA啃的是"多模态压缩饼干",把3D点云、交规文本和人类驾驶行为压缩成32B参数的"驾驶常识"。

  • 推理逻辑:

  • VPP玩的是"单帧剧透"——扩散模型中间层抽一帧就能预测整套动作,比追剧时看缩略图猜结局还快;

  • VLA搞的是"思维链话疗"——先用CoT推理出"前车可能要加塞",再决定是"礼让"还是"反手一个举报"。

  • 应用场景:

  • VPP在工厂里当"跨工种临时工",今天用机械臂拧螺丝,明天换双足机器人搬货架;

  • VLA在高速上化身"电子路怒症患者",边超车边给你播报《防御性驾驶十大准则》

VPP像体育生——靠肌肉记忆完成高难度动作;VLA像文科生——不仅要会开车,还得写篇《论安全变道的社会学意义》。至于谁更胜一筹?看看你家扫地机器人是默默干活(VPP流),还是突然问你"要不要顺路丢垃圾"(VLA流)就知道了


http://www.hkcw.cn/article/JZmWbrJwcS.shtml

相关文章

SOC-ESP32S3部分:28-BLE低功耗蓝牙

飞书文档https://x509p6c8to.feishu.cn/wiki/CHcowZMLtiinuBkRhExcZN7Ynmc 蓝牙是一种短距的无线通讯技术,可实现固定设备、移动设备之间的数据交换,下图是一个蓝牙应用的分层架构,Application部分则是我们需要实现的内容,Protoc…

动态规划-1143.最长公共子序列-力扣(LeetCode)

一、题目解析 对于给定了两个字符串中,需要找到最长的公共子序列,也就是两个字符串所共同拥有的子序列。 二、算法原理 1、状态表示 dp[i][j]:表示s1的[0,i]和s2的[0,j]区间内所有子序列,最长子序列的长度 2、状态转移方程 根…

EMQX 社区版单机和集群部署

EMQ 支持 Docker,宿主机,k8s部署;支持单机或集群部署。以下给出EMQX社区版单机和集群部署方法 1. Docker单机部署 官方推荐最小配置:2核 4G 下载容器镜像 docker pull emqx/emqx:5.3.2启动容器 docker run -d --name emqx \-…

小牛电动2025新品矩阵,引领技术普惠新风潮

自2014年成立以来,全球高端智能电动车领导品牌小牛电动已走过十个年头,在全球智能城市出行领域留下了深刻印记。秉持“科技、潮流、自由”的品牌理念,小牛电动致力于改变出行,让城市生活更美好。十年来,小牛电动推出多…

SU-03T1烧录使用教程

一、简介 SU-03T1模块是一款由深圳机芯智能开发的低成本、低功耗、小体积的离线语音识别模组,适用于智能家居、各类智能小家电、86盒、玩具、灯具等需要语音操控的场景。它是SU-03T的一个版本或后续产品,可能在功能或性能上有所改进或特定的应用优化。 该…

SOC-ESP32S3部分:27-设备OTA

飞书文档https://x509p6c8to.feishu.cn/wiki/Hd9TwkuZ3iEQiUkjaoic5p7Knuh ESO32S3应用程序可以在运行时通过网络从服务器下载新的固件,然后将其存储到某个分区中,从而实现固件的升级功能。 在ESP-IDF中有两种方式可以进行空中(OTA)升级: 使用 app_up…

Windows清理之后,资源管理器卡顿-解决方法

一、点击本地磁盘选择属性 二、选择工具 三、选择驱动器进行优化

VBA模拟进度条

在上一章中我跟大家介绍了ProgressBar控件的使用方法,但由于该控件无法在64位版本的Office中运行,为此我们可以采用Lable控件来模拟进度条的变化,以解决在64位版本的Office中无进度条控件的问题。 一、设计思路 添加两个重叠的Lable标签控件…

Linux(线程概念)

目录 一 虚拟地址到物理地址的转换 1. 操作系统如何管理物理内存: 2. 下面来谈谈虚拟地址如何转换到物理地址: 3. 补充字段: 二 Linux中的线程 1. 先来说说进程: 2. 线程: 3. 线程相比较于进程的优缺点&#x…

手把手教你用Appsmith打造企业级低代码平台:从部署到性能调优实战

文章目录 前言1.什么是Appsmith2.Docker部署3.Appsmith简单使用4.安装cpolar内网穿透5. 配置公网地址6. 配置固定公网地址总结 前言 在当今快速变化的商业环境中,企业正面临内部系统建设的双重挑战。传统开发模式不仅需要漫长的开发周期(通常需要数月&a…

PyTorch 入门学习笔记(数字识别实战)

目录 一、关于 PyTorch 的一个重要概念——神经网络 二、PyTorch 是如何解决问题的(解决案例) 1 案例:手写一个数字,让计算机识别出是哪个数字。 2 PyThorch 解决问题大约需要以下几个步骤: 3 代码示例&#xff1…

OSCP备战-BSides-Vancouver-2018-Workshop靶机详细步骤

一、靶机介绍 靶机地址:https://www.vulnhub.com/entry/bsides-vancouver-2018-workshop%2C231/ 靶机难度:中级(CTF) 靶机发布日期:2018年3月21日 靶机描述: Boot2root挑战旨在创建一个安全的环境&…

CANopen转Profinet 全攻略:打通施耐德变频器与西门子 300PLC通讯链路

Profinet转CAN open西门子300PLC与施耐德变频器通讯 项目 福建某公司在国外的一个工业自动化项目中,控制中心系统通过监控变频器的不同状态发送不同的命令启动/停止变频器,设定变频器的运行速度进而控制变频器所连接的伺服电机。监控中心系统使用的是西…

Shell脚本编程

shell概述 什么是shell? 在Linux内核与用户之间的解释器程序 Linux默认解释器为/bin/bash负责向内核翻译及传达用户/程序指令相当于操作系统的“外壳” shell的使用方式 交互式-命令行 人工干预,智能化程度高逐条解释执行,效率低、 非交…

win11中使用grep

一、下载 https://nchc.dl.sourceforge.net/project/gnuwin32/grep/2.5.4/grep-2.5.4-setup.exe?viasf1 二、控制面板的环境变量 Path中增加 E:\software\GnuWin32\bin 三、测试使用

负载均衡相关基本概念

负载均衡在系统架构设计中至关重要,其核心目标是合理分配负载,提升系统整体性能和可靠性。本文简要介绍了负载均衡的基本概念,包括四层和七层负载均衡、负载均衡的使用场景和实现方式、负载均衡的常用算法以及一些配置相关知识。 1、负载均衡…

Houdini POP入门学习03

跟着教程学习降雪效果制作,这部分包含blast裁剪、外部引脚获取等。 阶段1 1.Geometry中创建grid,连接popnet。 2.双击进入popnet,在wire_pops_into_here前添加popforce,这一步并不是为了添加重力,而是增加一些乱流。 …

ULVAC DC-10-4P 400V input 10kW DC Pulse power supply 爱发科直流电源

ULVAC DC-10-4P 400V input 10kW DC Pulse power supply 爱发科直流电源

星野录(博客系统)测试报告

目录 一. 项目背景 二、项目功能 三、测试计划 1. 功能测试 1.1 测试用例 1.2 执行测试部分操作截图 2. 使用selenium进行自动化测试 2.1 添加相关依赖 2.2 登录页面测试 3.3 注册页面测试 3.4 博客列表页面测试 3.5 博客详情页测试 3.6 博客编辑页面测试 3.7 个人…

WPF技术体系与现代化样式

目录 ​​1 WPF技术架构解析​​ ​​1.1 技术演进与定位​​ ​​1.2 核心机制对比​​ ​​2 样式与资源系统​​ ​​2.1 资源(Resource)定义与作用域​​ ​​2.2 样式(Style)与触发器​​ ​​3 开发环境配置(.NET 8)​​ ​​3.1 安装流程​​ ​​3.2 项目结…