让人形机械人真正走出实验室,一向是这个范畴最难的挑衅。
仿真里的机械人往往动作流畅、履行精确,但一旦来到实际世界,很多看似强大年夜的办法都邑因为情况差别而敏捷掉效。地面摩擦稍微变一下、身材负载多一点、传感器噪声大年夜一些,甚至只是被人轻轻推一把,机械人就可能动作僵硬、站不稳甚至直接倒下。能不克不及让机械人做到不依附精细规矩、不依附昂贵数据,也能在真实场景中保持稳定、天然和靠得住,这是近年来研究者们越来越存眷的问题。
而比来 CMU 和 Meta 研究团队合营提出,清华姚班李忆唐为第一作者一篇论文引起了广泛存眷。这个研究项目测验测验用一种更同一更朴实的方法来练习机械人,让模型在大年夜范围仿真中经由过程无监督交互本身积聚经验,再把嘉奖、姿势、动作序列等不合情势的义务提示一并紧缩到同一个潜在空间中。
经由过程这种设计,机械人不须要针对每个义务反复练习,只要生成合适的潜在向量,就能在实际情况中零样本履行动作,并能在面对扰动或前提变更时敏捷恢复稳定表示。
这项工作的亮点不在于某一个技能,而在于它让机械人在真实世界中的表示第一次出现出一种天然的连贯性。例如它能像人一样应对推搡,能从摔倒中顺势滚动再站起来,能在噪声很大年夜的动作序列下依然跟随指令,还能在负载或摩擦忽然变更时,仅经由过程潜在空间搜刮就从新找回稳定动作。比拟传统须要大年夜量规矩、脚本和专门练习义务的做法,这种方法显得更直接也更通用。

通用化的关键一步

论文地址:https://arxiv.org/pdf/2511.04131
从仿真到实际的跨域才能
论文的实验成果可以分成三大年夜部分:在仿真情况里的零样本测试、在真实机械人上的零样本安排,以及在特别情况下应用很少的数据进行快速适应。整体来看,这些实验合营展示了 BFM Zero 的泛化才能、鲁棒性和可扩大性。
在仿真阶段,研究者重要应用 Isaac 和 Mujoco 两种物理模仿情况对模型进行周全测试。这两个情况的物理特点差别较大年夜,是以能很好地考验策略是否依附某一种特定物理设定。
实验义务包含三类:动作跟踪、目标姿势达到以及嘉奖驱动的行动生成。在动作跟踪方面,模型在 Isaac 情况中参加大年夜量物理随机化后,固然不如幻想情况下那样精准,但误差只略有上升,属于能接收的小幅变更。
而当把模型直接放进物理规律明显不合的 Mujoco 中时,它的表示依然保持在一个稳定程度,机能降低控制在百分之七以内,这解释模型学到的不是某个情况的“技能”,而是一种具有普适性的活动规律。
在无监督预练习阶段,模型须要在没有明白义务嘉奖的情况下,经由过程与大年夜量仿真情况的互动积聚经验。为了让机械人可以或许应对多种类型的义务,研究者构建了一个同一的潜在空间,把嘉奖、目标姿势和动作序列等信息全部映射到同一种潜在表示中。雷峰网
在嘉奖优化义务中,研究者让模型根据不合嘉奖定义,在没有特定练习的情况下主动揣摸应当履行的行动。这类义务的难点在于嘉奖往往很稀少,且目标多样。
为了避免策略学到潜在危险动作,练习中还参加硬件相干的安然束缚。例如限制关节角度范围、防止与地面产生奇怪的碰撞、限制身材偏移过大年夜等。这些帮助嘉奖确保模型在宏大年夜的练习空间中不会偏向那些固然有效但不安然的动作模式,也包管它在将来的真实实验中不会毁伤机械人硬件。
例如某些嘉奖请求机械人以指定速度朝某偏向移动,但因为物理随机化导致状况分布变得复杂,有些义务会出现明显波动,甚至个别情况表示很差。
这并不是模型本身退化,而是揣摸嘉奖时依附 replay buffer 的随机采样,加上物理扰动让数据加倍分散。这种现象恰好证实模型确切在面对复杂多变的前提,而不是在一个“干净情况”里取巧。
对于目标姿势达到义务,模型表示得更为稳健。无论目标姿势是否在练习数据中出现过,它都能安稳地向目标挨近,不会出现激烈颤抖或乱蹦乱跳的异常行动。更关键的是,即便从 AMASS 这类完全不合的动作库中取姿势,模型也能成功完成,这解释其潜在空间不仅能覆盖练习数据,还能扩大到数据之外。
研究者甚至直接取 AMASS 中的动作片段让模型跟随,这些动作的风格可能与练习用的 LAFAN1 数据差得很远,但模型照样能履行,解释潜在空间已经把这些动作映射到同一个“可控行动区域”中,风格差别已经不是障碍。
当模型被安排到真实的 Unitree G1 humanoid 上时,它的零样本才能表示得更为直不雅和令人印象深刻。在动作跟踪义务中,机械人不仅能走路、回身,还能做较复杂的跳舞动作、活动动何为至搏斗姿势。
在论坛的圆桌对话环节,学者们将环绕“世界模型若何跨越仿真到实际的鸿沟”等关键议题展开深度研究。届时,来自家当界的顶尖研发团队也将分享其将世界模型前沿理论落地于机械人实体,解决复杂场景义务的成功实践。
更重要的是当它掉稳时,不会像传统机械人那样僵硬或者直接倒下,而是像人一样进行天然的调剂,例如重心偏移、撑地、滚动缓冲等,然后从新站起来持续义务。

这种天然的恢复动作完全来自策略本身的构造化潜在空间与风格束缚,并不是零丁练习“摔倒恢复”之类的技能。甚至在给它用于跟踪的动作是从单目视频估计出来的、质量很差的动作序列时,它依然能安稳跟随,解释模型对输入质量有很强的容错才能。
在目标姿势达到义务中,研究者随机采样了大年夜量目标姿势,请求机械人按照次序一一达到。机械人在姿势之间切换时动作十分腻滑,不须要工资添加插值或过渡动作,这解释其内部潜在空间具有天然的持续性。假如有些姿势本身弗成能在实际中精确切现(例如关节角度超出极限),机械人会主动找到一个最接近同时又天然、安然的姿势,而不是硬要模仿导致摔倒或抽搐。
在嘉奖优化义务中,研究者经由过程各类嘉奖旌旗灯号,让机械人主动生成对应行动。例如让它降低骨盆高度,它就会坐下或蹲起;嘉奖手部高度,它就会举手;嘉奖速度,它就会移动或转向。这些不合嘉奖还能组合,例如让它一边倒退一边抬手。

这种可组合性意味着将来可以经由过程说话描述需求,再把说话解析成嘉奖,就能让机械人主动“懂得”要做什么。更有趣的是,在雷同嘉奖下,经由过程不合 replay buffer 子样本生成的潜在表达会略有不合,从而获得不合风格的动作。这解释策略空间本身是多模态的,存在多个可行解,而不是一个逝世板的最优动作。

在真实情况中面对巨大年夜外力干扰时,机械人表示出极高的和婉性和稳定性。当被推搡、踢击、拉倒时,它不会简单僵硬对抗,而会以柔和方法接收冲击,例如撤退撤退几步缓冲重心、调剂手臂姿势保持均衡等。
即便被完全摔倒在地,它也能经由过程天然流畅的动作爬起,然后回到本来义务,比如持续恢复站姿或目标姿势。这些恢复动作不是硬性编写的,而是策略在潜在空间中天然表达出来的,这让机械人显得更“像人”。
最后,研究者展示了模型的快速适应才能。在适应过程中并不须要调剂收集权重,只须要针对新情况对潜在向量进行优化就行。第一个适应案例是在机械人 torso 上增长四公斤负载。本来零样本 latent 并不足以支撑单腿站立,但经由过程二十次交叉熵优化迭代后即可找到一个新的潜在向量,使机械人能在带载情况下稳定站立十五秒以上,并且优化成果直接迁徙到真实机械人上也能成功。
第二个案例是摩擦变更导致跳跃轨迹不稳定。研究者经由过程双重退火和采样办法优化潜在向量序列,最终使轨迹误差降低了近三成,整体动作更稳定。这个过程不依附从新练习模型,而完全依附潜在空间的灵活性。

通往通用行动模型的三步框架
总的来说这项研究的实验流程可以分成三个阶段,分别是无监督预练习、零样本推理以及少量样本适应。
研究者欲望让机械人在面对不合类型的义务时,不必依附多套不合的练习方法,而是经由过程同一个潜在空间表达就能懂得义务、生成动作,并且在前提变更时仍能保持稳定表示。如许的设计不仅让机械人在练习阶段加倍同一,也使后续的实际安排加倍灵活。
这个潜在空间的构建依附 forward-backward 办法,它能让机械人经由过程不雅察自身轨迹或义务提示,揣摸出对应的潜在向量。为了让模型拥有足够广的经验基本,练习过程中应用了 1024 个并行的 Isaac 物理模仿情况。这些情况以高频率运行,模仿了全身关节的动力学、地面接触的摩擦特点以及重力的变更规律。全部练习过程中,模型累计获得跨越五百万条交互样本,使其形成较为周全的行动经验库。
除了大年夜量的情况经验,练习过程还引入了丰富的物理随机化。研究者会在仿真过程中随机改变机械人各个部位的质量分布、调剂地面的摩擦系数、施加随机外力、改变身材姿势初始状况,并参加传感器噪声。
这些随机化设置切近亲近真实世界的不肯定性,使得练习出的策略在实际安排时不会因为情况与仿真略有差别就崩溃。同时,为了让机械人动作更相符人体特点,研究者还引入了动作数据集作为风格参考,经由过程风格判别器让策略在生成动作时保存天然动作的构造。例如手臂的摆动、身材的重心变更都邑因为风格束缚显得更切近人类动作。

在零样本推理阶段,模型已经具备解释不合义务提示的才能,是以不再须要持续练习其收集构造。当它接收到新的义务时,只须要根据义务类型生成对应的潜在向量 z。这种向量可以或许明白表达义务需求,策略收集根据它就能生成响应动作。
假如义务是基于嘉奖,那么潜在向量会从 replay buffer 的经验中,经由过程嘉奖旌旗灯号与 backward embedding 的关系揣摸出来。假如义务是姿势达到,那么研究者直接将目标状况输入 backward embedding 生成潜在向量。而在动作跟踪义务中,模型会把将来几个时光步的目标动作都嵌入潜在空间,生成一段持续的潜在向量序列,再慢慢履行。
从后果上看,这意味着机械人不须要针对每个义务从新练习,只要能生成合适的潜在向量,它就能直接履行动作、移动到目标地位或根据嘉奖调剂行动。
在少量样本适应阶段,模型面对的是练习中没有碰到的新前提,例如忽然增长的负载、变更的地面摩擦系数猜测不到的动力学变更等。为了让机械人在实际中快速恢复机能,研究者不修改收集本身,而是在潜在空间中搜刮更合适新前提的向量。
因为潜在空间的表达才能足够强,只要找到合适的向量,机械人就能从新恢复稳定表示。在单一姿势义务中,研究者采取交叉熵优化办法,经由过程赓续测验测验不合潜在向量并评估其表示,慢慢找到最优解。
在动态轨迹义务中,则应用采样式的双重退火策略,经由过程赓续扰动与收敛搜刮潜在向量序列,使机械人的活动轨迹从新稳定下来。因为这种适应过程不须要大年夜量数据,成本低,收敛快,异常合适实际场景中的快速调剂需求。
整体来看,这三个阶段合营构成了模型练习与安排的完全路径:从在多样化情况中进修通用动作构造,到在实际义务中无需练习直接履行,再到碰到特别情况时应用少量数据进行微调,使机械人在复杂情况下表示出优胜的泛化才能和适应才能。
这项研究的意义表如今多个方面,对将来的人形机械人成长具有重要推动感化。
起首,它展示了无监督强化进修也可以在真实的人形机械人上取得后果。以前成功让人形机械人完成复杂动作的做法,大年夜多依附大年夜量模仿数据或精心设计的义务嘉奖,而这项工作证实,即使没有明白嘉奖,也没有精细标注的动作轨迹,机械人仍然能在大年夜范围仿真中经由过程摸索和风格进修形成可泛化的行动才能。这让人们看到,人形机械人不必定须要昂贵的数据成本,也能学会稳定而丰富的活动技能。雷峰网("大众,"号:雷峰网)
其次,该办法生成的动作在天然性和和婉性上有明显晋升。传统的人形机械人在面对外力时往往表示得异常僵硬,只能做出硬性的支撑动作,一旦外力偏向稍有变更就可能掉稳。而本办法练习出的策略在碰到扰动时会出现更连贯、更腻滑的反响,例如稍微调剂重心、改变办法节拍、天然地把身材稳定下来。
即使受到较大年夜推搡,机械人也能以柔和而不突兀的方法处理,这种表示更接近人类的动作稳定机制。这解释模型在潜在空间中学到的活动规律具有内涵的调和性,而不是简单的机械式改正。
再者,这一办法为将来构建能被提示控制、能懂得泛化义务意图的人形机械人打下基本。因为所有行动都被同一映射到潜在空间,机械人可以依附潜在向量组合和调剂行动。
将来只须要给出高层的义务描述,例如目标姿势、整体意图或者嘉奖偏好,机械人就能主动组织出响应的动作,而不须要为每个义务从新练习专用策略。这种设计向“行动级基本模型”迈出了一步,让机械人变得更轻易扩大、更轻易控制,也加倍切近通用智能的目标。

同时,该办法具备强大年夜的实际适应才能。在练习中参加大年夜量随机化,使策略在面对不合动力学前提时也能保持稳定。在真实情况里,当负载改变、地面摩擦不合、动作需求忽然变更时,机械人不须要从新练习,只须要在潜在空间里稍作调剂,就能敏捷恢复到靠得住的表示。这使得模型在实际情况中的可用性明显晋升,可以或许更好地应对复杂多变的物理前提。
最后,这项研究摆脱了对高质量动作捕获数据的依附。以前想让机械人动作看起来天然,须要应用专业设备收集大年夜量高精度人体动作数据,成本极高。而这里应用的无标注动作序列就足以让模型学到人体动作的整体风格,既削减数据采集难度,也让练习加倍灵活。
综合来看,这项工作不仅供给了一套在仿真与实际之间高度一致的练习办法,还构建了一个具备泛化、天然性、稳定性与适应性的潜在行动空间,为将来更智能、更通用的人形机械人奠定了基本。
GAIR 2025,让技巧「走出」论文
2025年12月12-13日,第八届 GAIR 全球人工智能与机械人大年夜会,将在深圳南山·博林天瑞喜来登酒店举办。
世界模型是具身智能懂得与改革世界的“认知核心”,在 GAIR 大年夜会世界模型分论坛中,我们已经邀请到了国表里顶级高校与研究机构的多位知逻辑学者,就世界模型与空间智能在具身机械人范畴的摸索冲破,宣布多篇主题申报,合营商量这一真实应用中的最新进展。
我们等待与您合营见证,世界模型若何为具身智能注入真正的“魂魄”,开启机械人自立决定计划与行动的新篇章。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复