Whole-body Humanoid Robot Locomotion with Human Reference

article/2025/8/23 13:18:01

Whole-body Humanoid Robot Locomotion with Human Reference

  • 研究动机
  • 解决方案
  • 技术路线
    • 基于AMP从人类参考运动中学习
    • 人形机器人端到端强化学习
  • 实验结果

Whole-body Humanoid Robot Locomotion with Human Reference

研究动机

  • 传统机器人控制算法通常依赖对环境的准确建模,这在鲁棒性和通用性方面会带来重大挑战,尤其是在未知或动态变化的环境中,传统控制算法的性能可能会显著下降,限制了它们在更广泛的应用场景中的实用性。此外,对准确建模的依赖需要高水平的专业知识来构建和维护这些模型,增加了开发和调试的复杂性。
  • 传统机器人控制算法在适应性、灵活性和用户友好性方面尽管表现出色,但在特定环境中的卓越性能也限制了它们的应用,促使研究人员探索替代方法以克服这些障碍,设计更智能和更具适应性的机器人控制策略。

解决方案

介绍了全新的人形机器人Adam,并提供新的方法和实验验证,用于人形机器人的学习、适应和优化,为人形机器人研究和开发开辟了一条新途径。

  • 开发并详细描述了一种创新的仿生人形机器人 Adam,其四肢不仅活动范围接近人类,还在成本低廉和维护方便方面具有显著优势。
  • 设计并验证新的全身模仿学习框架,用于人形机器人,该框架有效地解决了人形机器人强化学习训练中遇到的复杂奖励函数设置问题,大大减少Sim2Real差距,并提高人形机器人的学习能力和适应性。

技术路线

基于AMP从人类参考运动中学习

模仿学习框架基于AMP,其中判别器 D D D输出从智能体采样得到的状态转移与从参考演示采样得到的状态转移之间的相似度。为确保具有相似状态转移的机器人能够执行相似的运动风格,选择输入判别器的观测值至关重要。判别器观测值包含每个驱动关节的位置、速度以及人形机器人的双手和双脚的位置。在每个时间步中,从演示中采样状态转移并输入至判别器中,以获取专家预测巡视,从而使判别器能够区分它们。

L e x p e r t = E ( o t D , o t + 1 D ) ∼ D [ ( D ( o t D , o t + 1 D ) − 1 ) 2 ] \mathcal{L}_{expert}=\mathbb{E}_{(o_t^D,o_{t+1}^D)\sim \mathcal{D}}[(D(o_t^D,o_{t+1}^D)-1)^2] Lexpert=E(otD,ot+1D)D[(D(otD,ot+1D)1)2]

从策略中采样的状态转移也同样计算:

L p o l i c y = E ( o t D , o t + 1 D ) ∼ π [ ( D ( o t D , o t + 1 D ) + 1 ) 2 ] \mathcal{L}_{policy}=\mathbb{E}_{(o_t^D,o_{t+1}^D)\sim \pi}[(D(o_t^D,o_{t+1}^D)+1)^2] Lpolicy=E(otD,ot+1D)π[(D(otD,ot+1D)+1)2]

对参考轨迹上的梯度进行惩罚以稳定训练,

L G P = E ( o t D , o t + 1 D ) ∼ π [ ∣ ∣ ▽ D ( o t D , o t + 1 D ) ∣ ∣ 2 ] \mathcal{L}_{GP}=\mathbb{E}_{(o_t^D,o_{t+1}^D)\sim \pi}[||\bigtriangledown \mathcal{D}(o_t^D,o_{t+1}^D)||^2] LGP=E(otD,ot+1D)π[∣∣D(otD,ot+1D)2]

总的AMP损失为:

L A M P = 1 2 L e x p e r t + 1 2 L p o l i c y + λ G P L G P \mathcal{L}_{AMP}=\frac{1}{2}\mathcal{L}_{expert}+\frac{1}{2}\mathcal{L}_{policy}+\lambda_{GP}\mathcal{L}_{GP} LAMP=21Lexpert+21Lpolicy+λGPLGP

AMP损失函数指导判别器对样本进行评分,对于真实的参考动作给出接近+1的分数,而对于由策略生成的动作则接近-1。策略的目标是生成足够逼真的动作,使判别器给出更高的分数,以此展示其接近模仿参考动作的能力。随后,策略训练中的模仿奖励公式表示为

r I = m a x [ 0 , 1 − 1 4 ( D ( o t D , o t + 1 D ) − 1 ) 2 ] r_{I}=max[0,1-\frac{1}{4}(D(o_t^D,o_{t+1}^D)-1)^2] rI=max[0,141(D(otD,ot+1D)1)2]

人形机器人端到端强化学习

同时,参考运动中的运动方向通常仅限于局部坐标系。为了便于在世界坐标系下控制、生成更加自然的步伐,并在复杂地形上实现从仿真到现实的更有效过渡,我们引入了协调任务奖励。任务奖励由三部分组成:命令奖励、周期奖励和正则化奖励。命令奖励迫使机器人沿命令方向单独移动,其公式为

r c o m = ∑ λ i e x p ( − ω ( ∣ v d e s i − v t i ∣ ) ) , i ∈ ( x , y , y a w ) r_{com}=\sum \lambda_i exp(-\omega(|v_{des}^i-v_t^i|)),i\in(x,y,yaw) rcom=λiexp(ω(vdesivti)),i(x,y,yaw)

为促进达到期望的步态性能,引入与模仿奖励相一致的周期性奖励。这种方法自然地促进了机器人保持稳定步态。然而,如果希望步态具有变异性,建议省略此奖励函数。本文通过摆动相(脚在空中移动)和支撑相(脚牢固地着地)来制定周期性奖励。每个周期性奖励项由系数 α i \alpha_i αi、相位指示符 I i ( ϕ ) I_i(\phi) Ii(ϕ)、相位奖励函数 V i ( s t ) V_i(s_t) Vi(st)组成, ϕ \phi ϕ表示周期时间, i i i表示相位是支撑相还是摆动相。摆动相和支撑相按顺序排列,并通过设定比例 ρ ∈ ( 0 , 1 ) \rho \in(0,1) ρ(0,1)共同覆盖整个周期时长。这种配置确保摆动相持续的时间相当于 ρ \rho ρ,紧接着是支撑相,其持续时间为 1 − ρ 1-\rho 1ρ。单脚奖励如下所示:

r p e r = ∑ α i E [ I i ( ϕ ) ] V i ( s t ) r_{per}=\sum \alpha_i \mathbb{E}[I_i(\phi)]V_i(s_t) rper=αiE[Ii(ϕ)]Vi(st)
V s t a n c e ( s t ) = e x p ( − 10 F f 2 ) V_{stance}(s_t)=exp(-10F_f^2) Vstance(st)=exp(10Ff2)
V s w i n g ( s t ) = e x p ( − 200 v f 2 ) V_{swing}(s_t)=exp(-200v_f^2) Vswing(st)=exp(200vf2)

其中 F f F_f Ff是每个足部的正压力, v f v_f vf是每个足部的速度。为建模相位指示器 I i ( ϕ ) I_i(\phi) Ii(ϕ),使用Von Mises分布的数学期望。相位指示器如图所示。

在这里插入图片描述

相位指示器形式化为

Q 1 = I s t a n c e ( ϕ + θ l e f t ) Q_1=I_{stance}(\phi+\theta_{left}) Q1=Istance(ϕ+θleft)
Q 2 = I s t a n c e ( ϕ + θ r i g h t ) Q_2=I_{stance}(\phi+\theta_{right}) Q2=Istance(ϕ+θright)

其中 θ l e f t \theta_{left} θleft θ r i g h t \theta_{right} θright是左腿和右腿在周期时间中的偏移。为获得更自然的步伐风格,计算脚速度、高度差以及摆动相位中的对称性的奖励。脚速度跟踪奖励形式化为

q i = c l i p ( ϕ ρ − 0.5 , 0 , 1 ) q^i=clip(\frac{\phi}{\rho}-0.5,0,1) qi=clip(ρϕ0.5,0,1)
r ( s t ) = 16 ( q i v f i ) 2 , 0 ≤ q i ≤ 0.6 r(s_t)=16(q^iv_f^i)^2,0\le q_i \le0.6 r(st)=16(qivfi)2,0qi0.6

脚速跟踪奖励鼓励机器人在摆动阶段进行更高的脚速。高度差奖励为

q i = ϕ ρ q^i=\frac{\phi}{\rho} qi=ρϕ
δ h = h f i − h f − i − 0.02 \delta h=h_f^i - h_f^{-i}-0.02 δh=hfihfi0.02
r ( s t ) = 2 e x p ( − 25 ∣ δ h ∣ ) , 0 ≤ q i ≤ 0.3 r(s_t)=2exp(-25|\delta h|),0\le q_i \le 0.3 r(st)=2exp(25∣δh),0qi0.3

其中 h f i h_f^i hfi是脚尖的高度, i i i为另一只脚的高度。此函数的目的是仅在步态周期的某些早期阶段基于脚的高度差计算奖励。对称奖励如下所示

d t = p t l e f t − p t r i g h t d_t=p_t^{left}-p_t^{right} dt=ptleftptright
t f = ( E [ I l e f t ( ϕ ) ] > 0.5 ) ⋀ ( E [ I r i g h t ( ϕ ) ] > 0.5 ) tf=(\mathbb{E}[I_{left}(\phi)]>0.5)\bigwedge (\mathbb{E}[I_{right}(\phi)]>0.5) tf=(E[Ileft(ϕ)]>0.5)(E[Iright(ϕ)]>0.5)
δ f t = t f ⋅ d t + ¬ t f ⋅ δ f t − 1 \delta f_t=tf \cdot d_t+\neg tf\cdot \delta f_{t-1} δft=tfdt+¬tfδft1
δ l t = ¬ t f ⋅ δ f t + t f ⋅ d t \delta l_t=\neg tf \cdot \delta f_t + tf \cdot d_t δlt=¬tfδft+tfdt
r ( s t ) = 3.3 t f e x p ( − 10 ∣ ∣ d t + δ l t ∣ ∣ 1 ) r(s_t)=3.3tfexp(-10||d_t+\delta l_t||_1) r(st)=3.3tfexp(10∣∣dt+δlt1)

其中 p t i p_t^i pti是足端效应器的三维位置, ¬ \neg ¬是取反符号。

为了增强从仿真到现实的转移鲁棒性,在综合奖励结构中加入了正则化奖励和域随机化。这些奖励施加了运动约束,强调了平滑性和安全性。

在这里插入图片描述

实验结果

请阅读原文。


http://www.hkcw.cn/article/MAYFHyVyra.shtml

相关文章

行业沙龙 | 博睿数据联合承办2025 湾区金科(FinTech)沙龙——智能运维专场,分享主题演讲

日前,由深圳市金融科技协会主办、深圳金融AI生态联盟与博睿数据联合承办的湾区金科(FinTech)沙龙(第七十二期)——智能运维专场,在深圳成功举办。本次沙龙聚焦金融行业运维转型升级,旨在推动智能运维的蓬勃发展与广泛应用,助力金融…

鲜羊奶对青少年心理健康的 “技术向” 营养支持

在数字化浪潮席卷心理健康领域的今天,当我们聚焦 AI 心理测评、大数据情绪监测时,羊大师却从生物化学 “底层代码” 切入 —— 发现鲜羊奶中的营养成分,正以类似 “技术优化” 的逻辑,为青少年心理健康提供独特支撑。以下从三大 “…

【达梦数据库】临时表空间不足

问题1:SQL应用端报错:超出表空间限制 1、应用执行SQL的过程中,临时表空间占用率超过100%,报错: 2、查看数据库日志,未发现任何有关的报错; 3、增加临时表空间的数据文件1个,最大值…

InnoDB中的锁

InnoDB中的锁机制是MySQL中实现事务隔离和数据一致性的核心部分。它通过多种锁类型和等级,控制多个事务对同一数据的并发访问,保证数据的完整性与一致性。 主要锁类型 1.行锁(Row Lock) 定义:锁定单个行记录。InnoDB…

2025年OE SCI2区TOP,进化麻雀搜索算法ESSA+海洋阻尼器迟滞建模与辨识,深度解析+性能实测

目录 1.摘要2.麻雀搜索算法SSA原理3.ESSA算法4.结果展示5.参考文献6.代码获取7.读者交流 1.摘要 海洋阻尼器的机械性能通常具有高度非线性,以适应动态和冲击环境。阻尼器经过动态和冲击测试,发现其滞回曲线具有速率依赖性且呈非对称性。为了能够描述动态…

贝锐蒲公英工业路由器R300A海外版:支持多国4G频段,全球组网

为更好地满足全球部署和企业出海项目的多样化需求,贝锐蒲公英异地组网工业路由器R300A海外版全新上市,并已正式上架速卖通!无论是跨国分支机构协同办公,还是海外工厂设备远程运维,R300A海外版都能为企业提供灵活、高性…

SQL的查询优化

1. 查询优化器 1.1. SQL语句执行需要经历的环节 解析阶段:语法分析和语义检查,确保语句正确;优化阶段:通过优化器生成查询计划;执行阶段:由执行器根据查询计划实际执行操作。 1.2. 查询优化器 查询优化器…

为什么在我的Flask里面有两个路由,但是在网页里有一个却不能正确访问到智能体

1. /zhoushibo 能访问,/chat 直接浏览器访问报 Method Not Allowed 原因: /zhoushibo 路由是你用 app.route(/zhoushibo) 定义的,返回的是一个HTML网页,浏览器访问没问题。 /chat 路由你用的是 app.route(/chat, methods[POST])…

【笔记】suna部署之获取 Tavily API key

#工作记录 Tavily 注册 Tavily 账号5: 打开浏览器,访问 Tavily 官网Tavily AI。点击页面上的 “注册” 按钮,按照提示填写注册信息,如邮箱地址、设置密码等,完成注册流程。也可以选择使用 Google 或 GitHub 账号授权登…

openbmc kvm vnc client connection

1. VNC 介绍: VNC(Virtual Network Computing,虚拟网络计算) 是一种远程桌面协议(RDP 的替代方案),允许用户通过网络控制另一台计算机的图形界面。其核心特点是 跨平台、开源、基于帧缓冲&…

OpenEuler 22.03 安装 nacos 2.5.1 集群

零:规划 本次计划安装三台OpenEuler 22.03 版本操作系统的服务器,用于搭建 nacos 集群。这里使用 2.5.1版本 的原因,是因为它是2.x当前的稳定版本 服务器名IP地址作用其他应用flink01192.168.159.133主jdk11、flink-1.17.2flink02192.168.15…

ES中must与filter的区别

在 Elasticsearch 的布尔查询(bool query)中,must 和 filter 是两个核心子句,它们的核心区别在于 是否影响相关性评分,这直接决定了它们在查询性能、使用场景和结果排序上的差异。以下是详细对比: 一、核心…

MATLAB源代码——基于Rao检验的自适应贝叶斯检测器

此代码适用于信号检测问题,如雷达信号检测、通信系统中的信号存在性检测等。需要根据实际应用调整噪声模型、信号模型以及检测门限的定义。文章目录 MATLAB源代码代码解释以下是基于 Rao 检验 的 自适应贝叶斯检测器 的一个 MATLAB 示例例程。这个例程假设检测问题为高斯分布下…

2025推客系统小程序开发:独立部署源码交付,高性价比裂变增长引擎

在私域流量争夺白热化的今天,源码独立部署的推客系统小程序已成为企业构建自主分销体系、降低获客成本的核心利器。基于成熟案例与技术沉淀,我们提供安全可控、高性价比的一站式解决方案,助力企业快速搭建专属推客生态,实现长效增…

多家医院回应药企向医生行贿 调查正在进行中

近日,一则关于某药企被举报向四川多家医院上百名医生行贿的消息引发广泛关注。举报材料提及四川省内包括成都市、绵阳市、广安市在内的多个城市的医疗机构,共计37家。达州市第一人民医院工作人员表示,举报信中提到的医生在院方员工名单中并不存在。成都医学院第一附属医院和…

The CTeX fontset “fandol“ is unavailable in the current mode.

完整报错如下 The error message says that the CTeX fontset "fandol" is unavailable in the current mode. This usually happens when using the ctex package with pdfLaTeX, but the Fandol fonts are not installed or not supported in this mode. A commo…

贵州一公路落石 汽车被砸中坠落高坎 地质灾害点雨后事故

贵州一公路落石 汽车被砸中坠落高坎 地质灾害点雨后事故!5月28日,贵州毕节市七星关区何官屯镇一条通村公路突发落石。一块约300斤重的巨石砸中一辆过路汽车,导致车辆从路边高坎坠落。司机受轻伤,送医检查后当日返家,车损由保险公司处理。落石还击碎了附近民房的玻璃门,但…

端午民航出行延续“量价齐升” 入境游火爆

端午民航出行延续“量价齐升” 入境游火爆。端午假期临近,位于五一旅游热潮与暑期旺季之间,今年的端午出行市场展现出独特节奏。受假期时长、高考临近等因素影响,旅客出行以周边游为主,同时出入境市场亮点频现,机票价格延续五一假期热度,同比增长。铁路方面,据上铁集团发…

[网页五子棋][匹配模块]处理开始匹配/停止匹配请求(匹配算法,匹配器的实现)

文章目录 处理开始匹配/停止匹配请求匹配算法实现匹配器(1)完善匹配器的 TODO 实现匹配器(2)实现 handlerMatch线程安全忙等问题 处理开始匹配/停止匹配请求 实现 handleTestMessage 先从会话中拿到当前玩家的信息解析客户端发来的请求判定请求的类型 如果是 startMatch&…

11.spark源码编译

1.构建环境 构建环境: ubuntu 22.04 jdk 11 scala 2.12 maven 3.9 spark 3.5 2.构建 获取代码 pull代码后,切换到对应分支。 git checkout branch-3.5编译 构建spark mvn -DskipTests clean package \-Dhadoop.version3.3.6 \-Phive -Phive-thrif…