通过基于流视频预测的可泛化双手操作基础策略-海口c网

25年5月来自中国电信、西北工业大学和香港科大的论文“Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction”。

由于动作空间巨大且需要协调手臂运动，学习可泛化的双手操作策略对于具身智体而言极具挑战性。现有方法依赖于视觉-语言-动作 (VLA) 模型来获取双手操作策略。然而，从单臂数据集或预训练 VLA 模型迁移知识通常无法有效泛化，这主要是由于双手数据的匮乏以及单臂和双手操作之间的根本差异。本文提出一种双手操作基础策略，通过微调领先的文本-转-视频模型来预测机器人轨迹，并训练一个轻量级的扩散策略来生成动作。鉴于文本-转-视频模型中缺乏具身知识，引入一个两阶段范式，该范式基于预训练的文本-转-视频模型，对独立的文本-转-流和流-转-视频模型进行微调。具体而言，光流作为中间变量，提供图像之间细微运动的简洁表示。文本-转-流模型通过预测光流来具体化语言指令的意图，而光流-转-视频模型则利用光流进行细粒度的视频预测。该方法减轻单阶段文本-转-视频预测中语言的模糊性，并通过避免直接使用低级动作显著降低对机器人数据的需求。在实验中，收集真实双臂机器人的高质量操作数据，仿真和实际实验结果证明方法的有效性。

双手操作对于具身智体至关重要，它能够执行需要双臂精确协调的复杂任务。与单臂操作不同，双手任务需要类似人类的协调能力，这带来了巨大的挑战，因为其动作空间显著扩大，并且需要双臂协调运动。先前的方法利用模拟[1, 2]或小规模现实世界数据[3–6]、人-目标基元[7, 8]以及结合策略迁移的强化学习(RL)[9, 10]来学习双手策略。然而，由于缺乏高质量的双手数据，这些方法的泛化能力往往有限，而模拟与现实之间的差距仍然是基于强化学习的方法面临的重大挑战。这些挑战迫切需要开发一种能够跨任务泛化，同时又能在现实世界中保持适应性和弹性的双手基础策略。

最近的方法构建大规模的视觉-语言-动作 (VLA) 模型，以获得可泛化的双手策略。一些方法直接混合跨-具身数据来训练单个网络，而数据混合策略已被证明对下游自适应至关重要，尤其是在特定领域机器人数据有限的情况下 [11, 12]。其他研究尝试为所有机器人构建统一的动作空间，从而能够在单臂和双臂数据集以及网络规模的人类数据上进行联合预训练。具体而言，RDT [13] 引入一个物理上可解释的动作空间，其中每个维度都与物理基元保持明确的对应关系，从而促进了跨机器人平台的可迁移性。GROOT 和 GO-1 [14, 15] 采用潜动作嵌入将不同的动作空间投影到共享码本中，从而能够在异构数据上进行大规模预训练。

尽管有这些创新，训练一个用于双手操作的鲁棒 VLA 模型仍然具有挑战性。首先，这些框架需要基于具有统一动作空间的聚合数据集从头开始训练，这会带来巨大的计算开销。其次，即使在统一的动作空间内，双手操作也表现出明显的多模态性，因为它本身就包含许多可能的动作模式 [13]，需要全面的数据覆盖。

构建通用的双手 VLA 所面临的挑战引出一个关键问题：使用基础模型构建双手策略，而不直接处理异构动作是否可行？观察表明，尽管双手操作动作复杂，但由此产生的状态轨迹可以通过视频统一表示。因此，建立一个基于语言指令的自然视频和机器人视频的统一建模框架，可以使双手基础模型能够根据指令预测机器人轨迹。幸运的是，现有的文本-转-视频 (T2V) 模型 [16, 17] 已经展现出卓越的生成和指令遵循能力。这些模型捕捉丰富的运动语义，包括人类与物理世界的交互，这对于具身智体建模机器人和物体动力学至关重要。此外，T2V 模型本身就具有时间依赖性，这使得它们非常适合用于马尔可夫决策过程 (MDP) 中的轨迹建模。

本文的 CogRobot，它利用 T2V 模型 CogVideoX [17] 来推导双手基础策略。通过在双手数据集上对 CogVideoX 进行微调，可以调整 T2V 模型，使其能够根据初始观察和语言指令有效地预测机器人未来的轨迹，从而无需像之前的 VLA 模型那样从头开始训练或建模复杂的动作。然后，轻量级的扩散策略会根据预测的视频生成机器人动作。

然而，直接在有限的双手数据上对 CogVideoX 进行微调通常会产生次优的预测。这个归因于该模型缺乏具身领域知识，从而阻碍对机器人和物体运动的精确预测。为了解决这个问题，CogRobot 引入光流作为中间变量，将流程分解为两个模块：文本-到-光流和光流-到-视频，这两个模块均基于 CogVideoX 构建。(i) 与直接预测视频相比，文本-到-光流模块预测的是光流而不是原始视频，专注于对机器人和目标的运动行为和动态交互进行建模，而无需详细说明视频细节。(ii) 然后，光流-到-视频模块从光流中重建详细的视频，通过光流将语言指令置于具体的高级语义中，而无需考虑低级动作。CogRobot 框架减轻语言指令中的歧义性，并显著降低微调的数据要求。因此，CogRobot 通过中间物理表示有效地将高级指令与低级动作连接起来。

采用两个七自由度 Realman 机械臂和一个外部摄像头构建一个双臂系统，如下图(a)所示。双手操作任务T可以表述为一个目标条件的部分可观马尔可夫决策过程（POMDP），其参数为（S，O，A，P，L），其中S和O分别为状态空间和观测空间。

通过VR设备的遥操作收集专家数据。该设备捕捉人类手部和手腕的姿势，并通过重新瞄准和逆运动学将其转换为机器人关节角度指令，基本遵循OpenTelevision [18]的原理。收集的数据集包含episodic数据，包括观察序列（即视频）v = [o_1,…,o_T]、动作序列[a_1,…,a_T-1]和语言描述l。

在 CogRobot 中，将指令条件下的双手策略 π(a_t:t+N−1|o_t,l) 的训练分解为两个步骤：(i) 给定当前观察 o_t，预测实现指定目标 l 的未来观察轨迹 o_t+1:t+N = o_t+1,…, o_t+N；(ii) 从预测的观察序列 o_t+1:t+N 中推导出可执行的低级动作 a_t:t+N−1。本文 o_t+1:t+N 的预测被表述为视频生成问题。

最近的 T2V 模型通过在大规模开放域文本视频数据集上进行训练，展现出生成高度逼真视频的强大能力。然而，由于这些数据集中缺乏双手操作数据，此类模型难以泛化到双臂机器人系统以预测其未来行为。对下游任务进行微调是必要的，但也带来两大挑战：（1）双臂系统需要双臂协调动作，这会引入更复杂的动态特性，现有的 T2V 模型难以表示。（2）由于数据收集成本高昂，公开的双臂数据集稀缺。因此，直接对现有的视频扩散模型进行微调往往会导致对手臂运动的预测不准确，无法捕捉机器人与物体的动态相互作用，从而导致双手执行的轨迹不可靠。为了克服这些挑战，提出一个两阶段微调框架，将运动细节明确地集成到视频生成过程中，如图 (b) 所示。利用光流对像素级运动进行编码，并预测反映细粒度运动模式的未来光流序列。这些预测的光流用于指导视频生成过程，使模型能够生成更精确的视频。

请添加图片描述

文本-到-流生成

首先展示当前 T2V 模型在预测双手行为方面的局限性。用 CogVideoX 作为基础模型，并使用两个双臂数据集（RDT [13] 和 RoboMIND [19]）评估其零样本泛化能力。然后，在包含这两个数据集的组合数据集上对 CogVideoX 进行微调，以评估其适应双臂系统的能力。
如下图 (a) 所示，当给出初始观察结果并提示“打开盖子并将玉米放入锅中”时，原始 CogVideoX 会生成一只虚假的人手和一颗玉米来遵循指令。它未能将双臂的视觉语义融入初始观察结果中，而是仅仅专注于生成与文本提示一致的帧。因此，它无法规划有效的轨迹。

请添加图片描述

在同一数据集上对具有不同模型大小（2B 和 5B）的两个版本的 CogVideoX 进行微调，并将它们称为 CogVideoX-2B-SFT 和 CogVideoX-5B-SFT。如图(b)-(d) 所示，直接在双手数据集上进行微调会导致性能下降，这是因为高级任务指令会引入语义模糊性。具体来说，这可以归因于三个挑战：

(i) 物理幻觉。如图 (b) 所示，即使经过微调，图 (a) 中观察到的幻觉仍然存在——生成的视频用虚构的机械臂替换了人手，但运动仍然违反了物理真实性。这表明 T2V 模型主要针对生成与文本输入在语义上一致的视频进行优化，而没有确保每一帧都遵循物理上合理的过渡。
(ii) 任务混淆。当输入涉及多个阶段的长周期指令时，模型可能无法确定在给定时间执行的正确子任务。如图 © 所示当不同的子任务共享相似的初始观察值时，模型无法推断下一步应该是“取出”还是“关闭”，并且可能错误地触发非预期的子任务。
(iii) 指令模糊。语言指令通常较为高级（例如“放置”），并且缺乏关于如何执行该操作的充分指导。因此，如图 (d) 所示，虽然生成的视频可能看似满足指令，但缺乏精确度会导致激进的运动规划无法在未来的 N 步中执行。该模型可能会生成不合理的关节位置，而这些位置并非基于可行的机器人动力学原理。这些挑战凸显文本描述与现实世界运动之间存在的持续差距，这阻碍模型获取必要知识以预测手臂应如何随时间移动并与目标物体交互的能力。

为此，利用光流作为指导，为模型明确提供运动线索。具体而言，给定一对 RGB 观测值 o_1 和 o_2，光流计算每个像素的位移场 f_1→2，该场将观测值 o_1 中的每个像素位置 p 映射到未来观测值 o_2 中的对应位置 p′ = p + f_1→2§。在双手操作中，两个图像观测值之间的差异主要由机械臂的运动及其与目标物体的相互作用造成。因此，通过对逐像素变化进行建模，光流可以捕捉手臂关节和末端执行器的精细运动细节，以及机器人与物体之间的接触。此功能可以精确监测机械臂的运动行为以及接触面处的动态相互作用。为了增强未来不同时间步长下流量预测的时间一致性，将流量预测过程表述为一个序列建模问题。具体来说，第一阶段的目标是生成一个光流序列 F_0:N = (f_0→1,…,f_0→N)，其中每个 f_0→t 表示从初始观测 o_0 到未来观测 o_t 的运动场。

然而，直接预测原始光流会带来新的挑战。由于双通道光流和三通道 RGB 图像之间的模态差异，先前的研究 [20] 需要从头开始训练一个额外的流变分自编码器 (VAE)，将模型从 RGB 域迁移到运动矢量域。这种方法依赖于网络规模的训练数据来有效地调整模型的分布，但由于特定领域数据的可用性有限，这对于双手操作任务来说是不切实际的。为了更好地利用预训练模型的先验知识并减少对大规模数据的依赖，将光流转换为流视频格式。具体而言，对于每个光流 f = (u, v)，按如下方式计算其幅度和角度：

请添加图片描述

不同的光流方向被映射到从 [21] 中使用的色轮中，选择不同颜色，而光流的大小决定颜色的饱和度。通过迭代地转换序列 F_0:N 中的每个光流，可以生成一个光流视频 v_F = ( v_f_0→1,…,v_f_0→N) ，该视频在消除格式差异的同时，保留了捕捉手臂运动的能力。由于此转换过程基于规则且仅涉及直接计算，因此效率极高，并且与模型训练成本相比，其计算开销极小。

通过这种转换，光流生成任务被重新表述为学习光流视频的分布：v—F ∼ p_θ_f ( v_F | o_0, l )。为了能够在有限的双臂数据集上进行有效训练，采用领先的 T2V 模型 CogVideoX 作为基础模型，并利用其从大规模网络视频中学习到的生成先验知识。在训练过程中，用预训练权重初始化模型，并冻结 VAE，将流视频 vF 编码为潜 z_f_0。然后用逐步添加的噪声 {ε_kf }对该潜在 z_f_0 进行骚动。在每个去噪步骤 k 中，模型接收带噪声的潜 z_fk 并预测相应的噪声 ε_kf。流生成的损失函数定义为：

请添加图片描述

光流-到-视频预测

基于文本-到-光流模型，构建一个光流-到-视频模型，该模型利用光流中嵌入的运动和交互线索来指导视频合成。这些线索能够捕捉难以仅凭文本推断的动态模式。与依赖低级动作输入的现有世界模型相比，光流提供了更高级的语义信息，有助于识别手臂和物体。可视化两个模型的注意图：CogVideoX-5B-SFT 和本文的模型，后者将光流作为引导。从指令中选择特定的单词，并提取相应的交叉注意图，以评估模型是否能够正确解释这些单词并将其转化为相关的低层视觉细节，如图所示，对于与手臂动作相关的单词，纯语言模型无法识别有意义的区域，导致运动基础薄弱。相比之下，本文光流引导模型可以响应预期的运动和相关的目标物体，从而实现指令和视觉输出之间更好的对齐。对于与目标物体相关的词语，模型能够准确地分割相关区域并有效滤除不相关的背景内容，而纯语言模型则会引入更多噪声并突出显示不正确的区域。

请添加图片描述

该模型旨在学习带有附加流引导的机器人轨迹视频的分布：v ∼ p_θ_v (· | o_0, l, v_F)。为了将第一阶段生成的流视频有效地整合到视频生成过程中，沿通道维度连接光流和 RGB 视频。具体而言，在训练期间，流视频 vF 和双臂轨迹视频 v 分别由 VAE 编码以得到相应的潜变量 z_f 和 z_v_0。按照流生成中使用的相同程序，视频潜变量 z_v_0 受到噪声 {ε^k_v} 的干扰，从而产生 z^k_v。然后将这个带噪声的潜信号与流潜信号连接起来形成 z_k = [z^k_v, z_f ]，并将其输入到模型中。视频生成的训练目标定义为：

请添加图片描述

视频扩散策略

为了能够使用视频预测模型来控制双臂系统，引入一个额外的控制器，用于从预测视频中提取可执行的低级动作。由于视频预测模型的训练目标是生成满足给定任务指令的未来观测值，因此预测视频中的每一帧都可以被视为双臂系统应该达到的目标观测值。因此，训练一个目标达成策略 π(a_0:n|o_0, o_n)，其中 o_0 是初始观测值，o_n 是该策略想要实现的期望观测值。采用扩散策略[22]作为该控制器的主干。在训练过程中，随机采样一个目标步骤 n ∼U (1, n_max)，并使用噪声 {ε^k_π} 逐步将相应的动作序列 a_0:n 扰动为 a^k_0:n。目标达成策略的训练目标定义为：

请添加图片描述

实验细节。

模拟设置。在 RoboTwin [2] 上评估该方法。RoboTwin 是一个生成式数字孪生框架，可以生成各种专家演示和逼真的交互式场景。RoboTwin 构建一个与现实世界对齐的环境，涵盖常见的机器人操作技能，例如拾取和放置，以及更复杂的双臂协作任务。这能够系统地评估双手策略的性能和泛化能力。

真实世界设置和数据收集。构建一个自然的家具环境，两个机械臂安装在桌子的两侧，前置摄像头用于捕捉手臂运动和场景环境。为了高效地收集双臂任务的数据，使用 Vision Pro 开发一个基于视觉的遥操作系统。它提供了一个直观的控制和收集界面。基于 VR 的系统捕捉 6D 手腕姿势和手指关节位置，并通过两步坐标变换将它们转换为机器人可执行的命令。该变换将 Vision Pro 坐标系与机器人的坐标系对齐，并通过欧拉旋转纠正姿势定义的不一致。手指距离映射到夹持器宽度，从而可以通过手势直观地控制夹持器。

架构细节。文本-到-流和流-到-视频模型均使用预训练的 CogVideoX-2B 模型进行初始化。首先在由两个双手数据集（RDT 和 RoboMIND）组成的组合数据集上对这两个模型进行微调。然后，在下游模拟和真实演示中进一步对其进行微调。所有视频样本均标准化为 256×256 的分辨率和 17 帧的固定长度。对于文本-到-流模型，使用 FlowFormer++ [52] 从每个视频片段中提取真实的光流。

基准。方法与三个基准进行比较：（i）基于单视图的方法：扩散策略（DP）[22]。这是一种条件去噪扩散模型，通过迭代细化样本来生成动作，从而实现稳定的训练和处理复杂的多模态行为。（二）基于多视图的方法：RDT [13]。这是一个基于扩散的大型双手操作基础模型，具有统一的动作空间和 Transformer 架构。（三）基于 3D 的方法：DP3 [53]。一种 3D 视觉模仿学习方法，在扩散策略中利用基于点云的表示。文本-到-流模型、流-到-视频模型和 RDT 是在混合多任务数据集上训练的，而下游目标条件策略和其他基线模型是在单任务数据集上训练的。对于每个任务，收集 100 个演示。对 RDT 使用默认的 D435 摄像机，对其他单视图基线和该方法使用 L515 摄像机，因为依靠单个图像作为输入更具挑战性，并且需要更丰富的视觉信息。