来和机器狗一起运动吧,你的羽毛球搭子来了。通过强化学习,机器狗学会了独立打羽毛球,无论是在室外还是室内都能应对自如。
研究人员开发了全身视觉运动控制策略,同步控制机器狗的腿部移动和手臂挥拍动作。最终,机器狗的最高挥拍速度达到了12米/秒。在与人类选手的比赛中,某一回合连续击球10次,甚至出现了击球后回位中心的类人行为。该研究在各种环境中进行了大量实验,验证了四足机器人预测羽毛球轨迹、有效导航服务区域以及对人类球员进行精准打击的能力,证明了足式移动机器人在复杂和动态体育场景中的应用可行性。研究团队来自苏黎世联邦理工学院,相关论文发表在《科学·机器人》杂志上。
学会打羽毛球的机器狗配置如下:主体由一个四足ANYmal-D底座和一个动态手臂DynaArm组成。它配备了一个带有全局快门的ZED X立体相机用于羽毛球感知。相机计算出的羽毛球位置和机器人本体感知观测值一起被输入到强化学习策略中。然后生成关键指令来控制四足底座。羽毛球拍相对于腕关节呈45°角定向,这是根据早期仿真测试得出的最佳配置。在部署过程中,机器狗以400 Hz的频率运行,同时机器人控制策略以100 Hz的速率更新观测值并发送关节位置指令。系统的感知模块包括羽毛球位置测量、状态估计和轨迹预测,以60 Hz的频率异步运行。
基于这个配置,机器狗和人类业余羽毛球选手进行了比赛。尽管存在一些失误,但机器狗能够根据不同速度和落点的来球做出适当反应。平均来说,感知模块在对手机球后需要花费0.357秒来判断拦截轨迹。通常,羽毛球会在0.654秒后达到四足底座上方1.25米然后被拦截。记录中,机器狗从预测到击球最快耗时0.367秒。在官方放出的视频中,有一次对打进行了10次连续击球。每次击球后,机器狗会自动向球场中心移步,类似于人类玩家调整站位和站姿为下一次击球做准备。
在给定真实感知的情况下,研究人员评估了在指令挥拍时间到达拦截位置0.1米范围内的击球百分比。仿真结果表明,在发球区,机器狗拦截来球几乎一拦一个准,失败率可忽略不计。但在发球区边界或羽毛球直接落在机器狗身后时,预测羽毛球轨迹并成功拦截就变得非常困难。当羽毛球从正上方或正后方接近机器狗时,它必须直接向上俯仰,这对机器狗来说很有难度。执行10m/s的挥拍速度时,机器狗基本都能跟踪指令速度;速度超过10m/s时,精度就会下降。当命令其以19m/s挥拍时,机器狗出现了最高执行速度,即12.06m/s。相比之下,业余羽毛球运动员可以达到20m/s至30m/s的挥拍速度。系统在接近其电流和关节速度极限的情况下运行以实现这些指令。更高的指令速度导致基座角速度增加,表明基座姿态控制与操作器挥动之间存在耦合。球拍在指令的击球时刻精确到达其最近点。在指令12m/s挥拍时,机器狗执行的平均挥拍速度为10.8m/s,平均位置误差为0.117米。换句话说,当球拍以目标速度移动时,仅有0.0108秒的偏移。
在整个羽毛球大战中,机器狗会自主学习动态调整相机姿态,根据任务紧迫性动态调整步态,包括短距离微调姿态、中距离不规则步态、长距离类疾驰步态等。例如,它以快跑进行远距离快速拦截,并在近距离回击时稳定,动态协调手臂和腿部。
打羽毛球的难点在于需要复杂的步法和上肢运动之间的相互协调。对机器狗来说,这也是一项需要精确协调感知、移动和手臂挥动的任务。更进一步来说,需要在动态环境中协调下肢与上肢之间的运动,并使肢体控制与感知对齐。这不仅依赖于硬件,还取决于控制算法。当前控制器和硬件存在不足,而羽毛球对感知、移动和操作之间复杂的相互作用提出了极高的要求,需要平衡“快速响应的移动”与“精确的手臂运动”。
研究团队提出了一种基于强化学习的统一控制策略,用于涉及所有自由度的全身视觉运动技能,以实现有效的羽毛球跟踪和击打。该策略利用真实世界相机数据的感知噪声模型提供信息,确保仿真与部署之间感知误差水平的一致性,并促进学习主动感知行为。此外,该方法还包括一个羽毛球预测模型和用于鲁棒运动控制的约束强化学习,以增强部署准备度。与基准相比,在没有明确的视野范围奖励的情况下,机器狗即可实现更低的感知误差和更高效的机械功率使用。当前系统主要依赖一个商用立体相机上的扩展卡尔曼滤波器(EKF)进行羽毛球状态估计。未来可以通过整合额外的传感模态来改进,例如通过扭矩和声音进行冲击检测,或加入额外的RGB、深度或事件相机,以增强机器人在更激烈的游戏场景中的物理交互响应。鉴于人类球员通常通过观察对手动作来预测羽毛球轨迹,人体姿态估计也可能是一种提高策略性能的有价值模态。