在生成式 AI 周全进入三维空间的当下,若何让机械不仅“看到”物体,还能懂得其构造、关节和活动方法,正在成为全球研究机构与家当界合营存眷的核心。
从虚拟内容制造到机械人操作,从数字孪生到工业仿真,可动三维的主动化生成正在被视为将来交互式数字世界的重要基本才能。然而,现有办法仍广泛受限于对完全三维扫描的依附、对构造与纹理分别建模造成的不一致性,以及难以处理活动带来可见性变更等难题。
这项工作不仅展示了构造化潜空间、扩散式 3D 生成与关节感知纹理建模的协同潜力,也为进一步晋升 AI 对物体功能性与交互属性的懂得奠定了基本。

值得一提的是,该论文作者之一的潘新钢曾作为 2023 年 GAIR 全球人工智能与机械人大年夜会的受邀嘉宾,与浩瀚来自国际顶级院校与企业的研究者合营商量三维视觉、机械人操作和生成式模型的前沿偏向。
雷峰网("大众,"号:雷峰网) GAIR 对三维生成、机械人智能与新型视觉体系经久保持存眷,而即将在 2025 年 12 月 12 — 13 日于深圳·博林天瑞喜来登酒店举办的 GAIR 大年夜会,也将持续聚焦这些技巧的家当化趋势,与一众来自研究机构、科技企业与应用行业的专家合营存眷空间智能与新型生成模型等新兴技巧在将来交互式场景中的落地路径与成长偏向。

论文地址:https://arxiv.org/pdf/2510.21432
整体的机能跃升
S-Lab 团队这篇论文中的实验成果显示,他们研发的模型在多个关键维度上都有明显晋升,无论是几何构造的完全度、关节活动的稳定性,照样外不雅出现的真实度与跨数据集的泛化才能,都展示出优于现有办法的综合表示。
起首,在几何构造生成方面,经由过程 Chamfer Distance 指标可以看到,无论是在静止状况照样在经历关节扭转、平移等活动之后,模型都可以或许生成与真什物体高度接近的三维构造,并且在多种办法中保持了最低程度的几何误差。
生成物体在关节活动前后仍能保持清楚的部件界线和稳定的空间关系,没有出现错位或穿插现象,这解释模型所进修的构造潜空间有效捕获了各部件之间的持续性与耦合关系,从而使活动前后的几何一致性明显优于现有办法。
在外不雅纹理生成方面,模型在 FID 得分及可视化表示上均展示了明显优势。生成成果的纹理加倍清楚,色彩分布一致,细节保存充分,尤其是在关节活动后才会裸露的内部区域,例如抽屉内部或门板后头,模型依然可以或许合成天然且无噪点的纹理。
这种稳定且连贯的纹理表示不仅表如今局部细节上,也表如今关节状况变更前后的整体一致性上,即生成的外面在不合关节地位下不会出现色彩跳变或纹理断裂,从而实现了对因活动带来可见性变更的精确补全。
此外,模型生成的活动行动也表示出高度的物理合理性。对于常见的家具对象,模型可以或许主动为抽屉生成平移关节并沿合理偏向活动,为门板生成扭转关节并环绕精确的轴心展开,同时在活动过程中保持部件间无不合理的干涉或扭曲。在多次活动状况的测试中,模型展示出优良的可控性、稳定性和部件分别度,远超依附部件检索或后期装配的传统办法。

更进一步地,论文还验证了模型在新数据集上的泛化才能。在来自完全不合来源的数据上,无论是几何精度、外不雅真实度照样活动表示,模型都保持了高质量输出,未出现构造性缺点,这解释模型并没有简单记忆练习数据,而是真正进修到了可迁徙的“关节构造 + 外不雅生成”才能。
最后,消融实验也强调了关节感知外不雅微调策略的重要性。假如不应用该策略,生成成果在关节处和活动后裸露出的内部区域轻易出现噪点、模糊或色彩异常。而参加该策略后,纹理清楚度及稳定性明显晋升,新裸露区域的外不雅也加倍天然一致,从而证实这一模块是整体机能晋升的关键身分。

可动三维的构建机制
总的来说,团队的实验流程可以整体概括为构造进修、潜空间生成以及外不雅进修三个环节。
起首,研究者为每个练习对象构建了一种带有丰富关节信息的稀少三维体素表示。在这一表示中,体素不仅记录了物体是否占据该空间地位,还包含部件类别、所属部件的空间包抄盒、关节类型、关节的轴向和原点地位以及关节的可活动范围等描述物体构造与活动属性的关键要素。
所有体素数据会被同一归一化后输入到一个三维卷积式的变分自编码器中,经由过程占据分类损掉、部件语义与关节类型的分类损掉、关节参数以及包抄盒的回归损掉,并结合 KL 正则化形成整体练习目标,从而使模型可以或许将高维而复杂的体素构造紧缩成一个紧凑、持续且可生成的三维潜编码。经由充分练习后,该自编码器已经可以或许精确答复复兴完全的可动构造,并为后续的生成义务供给稳定的构造潜空间。
在这一背景下,南洋理工大年夜学 S-Lab 团队近期宣布的一项研究供给了新的解决路径。他们提出的同一建模框架可以或许从单张图像生成具备真实几何构造、精确关节参数和天然外不雅纹理的可动三维对象,在几何精度、外不雅一致性与活动合理性上均取得明显晋升。
在获得构造潜编码之后,论文进一步在潜空间中练习扩散模型以生成可动构造。为此,作者构建了大年夜量由潜编码与其对应前提构成的数据对,个中前提既可所以来自真实图像的视觉特点,也可所以简单的类别标签。

扩散模型采取基于 Transformer 的三维构造建模方法,可以或许捕获潜网格内部的空间依附关系,并在此基本上进修构造潜分布。完成练习后,该模型不仅可以或许无前提生成多样化的可动三维构造,还可以或许在给定单张图像的情况下,生成与输入在外不雅、几何构造和关节属性上均保持一致的可动对象。
在构造生成才能具备之后,论文最后解决的是外不雅生成的问题。因为原始的三维高斯解码器只在静态物体上练习,它无法处理关节活动带来的可见性变更,是以在活动后裸露出的内部区域轻易出现纹理缺掉或异常。

为此,作者提出了关节感知的外不雅解码微调策略。具体做法是,在每个练习物体的关节活动范围内平均采样若干状况,并对每个状况衬着多视角图像,然后提取其特点与体素一一对应,为模型供给“不合关节状况下真实可见外不雅”的参考。
在微调过程中,生成的三维高斯点会根据对应的关节参数进行实际的扭转或平移,然后被衬着成图像并与真实衬着成果进行比较。经由过程这种多状况的重建监督,模型逐渐学会了哪些区域在关节活动时会变得可见、若何为这些新裸露的外面生成合理纹理,以及如安在不合关节地位下保持整体外不雅的一致性。

随后,高斯解码器会将构造潜表示还原为完全的三维外不雅,最终获得一个既保存真实外不雅,又具备精确关节行动的三维高斯对象,用户可以直接对其进行扭转或平移等活动操作。全部推理过程大年夜约须要二十几秒即可完成。
同一建模带来了新可能

论文之外,这项工作的最大年夜意义,在于构建了一套真正可扩大的可动三维生成框架,而不仅仅是提出一种新的技巧办法。以往的三维生成要么只能输出静态模型,要么依附完全的三维扫描数据,也有一些办法经由过程检索和拼装来构造构造,难以实现从少量输入中生成能活动的物体。
如今只须要一张通俗图像,就能获得构造合理、关节设置精确、外不雅逼真的可动三维对象,这大年夜幅降低了创建三维内容的难度,对全部生成范畴都是一次重冲要破。
办法的核心在于把几何构造、运念头制和外不雅纹理放在同一框架中进行进修。构造化潜空间同时表达几何、语义与关节信息,扩散模型进一步进修它们之间的接洽关系,外不雅微调机制包管物体在产生活动后仍然出现天然、稳定的纹理。经由过程这种整体式的建模方法,生成成果避免了传统流程中构造和外不雅不调和的问题,看起来加倍一致和可托。
完成上述三个阶段的练习后,模型的推理流程也相对简洁。给定一张真实图像,模型起首应用扩散模型生成一个与输入相匹配的可动体素构造,然后根据体素语义和空间包抄盒主动对物体进行部件划分,接着对每个部件的关节参数进行聚合以确保其活动的一致性。
在应用层面,这种可以或许从单图生成可动三维物体的才能具有很大年夜的价值。虚拟实际和加强实际场景可以快速获得可交互物体,线上家具展示可以或许更轻易地出现开合、扭转等动作,游戏制造也能受益于主动生成带关节的三维模型。对于机械人进修而言,这类可动生成物体有助于机械人懂得和预判未知物体的应用方法,也实用于家庭和工业场景的数字孪生构建。几乎所有须要大年夜量可交互三维对象的行业都可能是以受益。
办法本身也具有很强的泛化才能和扩大空间。构造化潜空间、可动构造扩散模型和关节感知外不雅解码并不依附特定的物体品类,是以不仅实用于家具,还可以推广到机械设备、对象、生物体的骨骼构造以及复杂的装配体系。
由此看来,这项研究不仅解决了当前可动三维生成的核心难题,也为将来相干偏向的成长奠定了基本。
首批雷峰网 GAIR 2025 重磅大年夜咖名单正式揭晓,还有更多行业领军者将齐聚现场,共探智能的将来。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复