传统上,基于卷积神经网络构建的单视图对象重建模型在重建任务中表现出了卓越的性能。近年来,单视图3D重建已成为人工智能界的热门研究课题。无论采用何种具体方法,所有单视图 3D 重建模型都共享在其框架内合并编码器-解码器网络的通用方法。该网络对输出空间中的 3D 结构执行复杂的推理。
在本文中,我们将探讨单视图 3D 重建如何实时运行以及这些框架当前在重建任务中面临的挑战。我们将讨论单视图 3D 重建模型所使用的各种关键组件和方法,并探索可以增强这些框架性能的策略。此外,我们将分析采用编码器-解码器方法的最先进框架产生的结果。让我们深入了解一下。
单视图 3D 对象重建
单视图 3D 对象重建涉及从单个视点(或更简单地说,从单个图像)生成对象的 3D 模型。例如,从图像推断物体(例如摩托车)的 3D 结构是一个复杂的过程。它结合了零件结构排列的知识、低级图像线索和高级语义信息。这个范围包括两个主要方面: 重建 和 承认。重建过程使用阴影、纹理和视觉效果等线索来识别输入图像的 3D 结构。相反,识别过程对输入图像进行分类并从数据库中检索合适的 3D 模型。
当前的单视图 3D 对象重建模型的架构可能有所不同,但它们通过在其框架中包含编码器-解码器结构而实现统一。在此结构中,编码器将输入图像映射到潜在表示,而解码器对输出空间的 3D 结构进行复杂的推断。为了成功执行此任务,网络必须集成高层和低层信息。此外,许多最先进的编码器-解码器方法依赖于单视图 3D 重建任务的识别,这限制了它们的重建能力。此外,在不显式推断 3D 对象结构的情况下,现代卷积神经网络在单视图 3D 对象重建中的性能也可以被超越。然而,卷积网络在单视图对象重建任务中的识别主导地位受到各种实验程序的影响,包括评估协议和数据集组成。这些因素使框架能够找到捷径解决方案,在本例中是图像识别。
传统上,单视图 3D 对象重建框架使用着色形状方法来完成重建任务,其中纹理和散焦作为重建任务的奇异视图。由于这些技术使用单一深度提示,因此它们能够为表面的可见部分提供推理。此外,很多 单视图 3D 重建框架 使用多个线索和结构知识来估计单个单目图像的深度,这种组合允许这些框架预测可见表面的深度。部署了更新的深度估计框架 卷积神经网络 用于提取单目图像深度的结构。
然而,为了有效的单视图 3D 重建,模型不仅必须推理图像中可见物体的 3D 结构,还需要使用从数据中学习到的某些先验来幻觉图像中的不可见部分。为了实现这一目标,大多数模型目前部署经过训练的卷积神经网络结构,使用直接 2D 监督将 3D 图像映射到 3D 形状,而许多其他框架部署了基于体素的 3D 形状表示,并使用潜在表示来生成 3D 上卷积。某些框架还对输出空间进行分层划分,以提高计算和内存效率,使模型能够预测更高分辨率的 3D 形状。最近的研究重点是使用卷积神经网络对单视图 3D 形状预测使用较弱的监督形式,或者比较预测形状与其真实预测来训练形状回归器,或者使用多个学习信号来训练平均形状以帮助模型预测变形。单视图 3D 重建进展有限的另一个原因是可用于该任务的训练数据量有限。
接下来,单视图 3D 重建是一项复杂的任务,因为它不仅从几何角度解释视觉数据,而且从语义角度解释视觉数据。尽管它们并非完全不同,但它们确实跨越了从几何重建到语义识别的不同范围。重建任务对图像中对象的 3D 结构进行逐像素推理。重建任务不需要对图像内容进行语义理解,可以使用低级图像线索(包括纹理、颜色、阴影、阴影、透视和焦点)来实现。另一方面,识别是使用图像语义的极端情况,因为识别任务使用整个对象和数量来对输入中的对象进行分类,并从数据库中检索相应的形状。尽管识别任务可以提供关于图像中不可见的对象部分的可靠推理,但只有当它可以由数据库中存在的对象来解释时,语义解决方案才是可行的。
尽管识别和重建任务可能彼此显着不同,但它们都倾向于忽略输入图像中包含的有价值的信息。建议同时使用这两项任务以获得最佳结果以及用于对象重建的准确 3D 形状,即对于最佳单视图 3D 重建任务,模型应采用结构知识、低级图像线索、以及对对象的高层次理解。
单视图 3D 重建:传统设置
为了解释传统设置并分析单视图 3D 重建框架的设置,我们将部署一个标准设置,用于使用对象的单个视图或图像来估计 3D 形状。用于训练目的的数据集是 ShapeNet 数据集,它评估 13 个类别的性能,使模型能够了解数据集中的类别数量如何决定模型的形状估计性能。
大多数现代卷积神经网络使用单个图像来预测高分辨率 3D 模型,并且这些框架可以根据其输出的表示进行分类:深度图、点云和体素网格。该模型使用 OGN 或八叉树生成网络作为其代表性方法,该方法在历史上优于体素网格方法,和/或可以覆盖主要的输出表示。与利用输出表示的现有方法相比,OGN 方法允许模型预测高分辨率形状,并使用八叉树有效地表示占用的空间。
基准线
为了评估结果,该模型部署了两个基线,将问题纯粹视为识别任务。第一个基线基于聚类,而第二个基线执行数据库检索。
聚类
在聚类基线上,模型使用 K-Means 算法对 K 个子类别中的训练形状进行聚类或聚束,并在展平为向量的 32*32*32 体素化上运行该算法。确定聚类分配后,模型切换回使用更高分辨率的模型。然后,模型计算每个簇内的平均形状,并对平均形状进行阈值处理,其中通过最大化模型的平均 IoU 或并集交集来计算最佳值。由于模型知道训练数据中 3D 形状和图像之间的关系,因此模型可以轻松地将图像与其相应的聚类进行匹配。
恢复
检索基线学习将形状和图像嵌入到联合空间中。该模型考虑训练集中 3D 矩阵形状的成对相似性来构建嵌入空间。该模型通过使用多维缩放和 Sammon 映射方法将矩阵中的每一行压缩为低维描述符来实现这一点。此外,为了计算两个任意形状之间的相似度,该模型采用了光场描述符。此外,该模型还训练卷积神经网络将图像映射到描述符,以将图像嵌入到空间中。
分析
单视图 3D 重建模型遵循不同的策略,因此它们在某些领域优于其他模型,而在其他领域则表现不佳。为了比较不同的框架并评估它们的性能,我们有不同的指标,其中之一是平均 IoU 分数。
从上图中可以看出,尽管架构不同,但当前最先进的 3D 重建模型提供了几乎相似的性能。然而,有趣的是,尽管是一种纯粹的识别方法,但检索框架在平均 IoU 分数和中值 IoU 分数方面优于其他模型。集群框架提供了优于 AtlasNet、OGN 和 Matryoshka 框架的可靠结果。然而,尽管采用了完美的检索架构,但该分析最出乎意料的结果仍然是 Oracle NN 优于所有其他方法。尽管计算平均 IoU 分数确实有助于比较,但它并不能提供全面的信息,因为无论模型如何,结果的方差都很大。
通用评估指标
单视图 3D 重建模型通常采用不同的评估指标来分析其在各种任务中的表现。以下是一些常用的评估指标。
联合路口
并集交集平均值是一种常用作定量衡量标准的指标 单视图 3D 重建模型。尽管 IoU 确实提供了对模型性能的一些了解,但它并不被视为评估方法的唯一指标,因为只有当值足够高且观察到的值之间存在显着差异时,它才表明模型预测的形状的质量。两个给定形状的低分和中分。
倒角距离
倒角距离是在点云上定义的,其设计方式可以令人满意地应用于不同的 3D 表示。然而,倒角距离评估指标对异常值高度敏感,这使得它成为评估模型性能的一个有问题的衡量标准,异常值与参考形状的距离在很大程度上决定了生成质量。
F分数
F-Score 是大多数多视图 3D 重建模型积极使用的常见评估指标。 F-Score 指标定义为召回率和精度之间的调和平均值,它明确评估对象表面之间的距离。精度计算位于距地面实况预定距离内的重建点的百分比,以衡量重建的准确性。另一方面,召回率计算位于重建预定距离内的地面真值点的百分比,以衡量重建的完整性。此外,通过改变距离阈值,开发人员可以控制 F-Score 指标的严格程度。
每类分析
上述框架提供的性能相似性不可能是在不同类子集上运行的方法的结果,下图展示了不同类之间一致的相对性能,其中 Oracle NN 检索基线实现了所有类的最佳结果,并且所有观察所有类别的高方差的方法。
此外,一类可用的训练样本数量可能会导致人们认为它会影响每类的性能。然而,如下图所示,一个类的可用训练样本数量不会影响每个类的性能,并且一个类中的样本数量与其平均 IoU 分数不相关。
定性分析
上一节中讨论的定量结果得到定性结果的支持,如下图所示。
对于大多数类别,聚类基线与基于解码器的方法做出的预测之间没有显着差异。当样本与平均簇形状之间的距离较大时,或者在平均形状本身无法充分描述簇的情况下,聚类方法无法提供结果。另一方面,采用基于解码器的方法和检索架构的框架可提供最准确和最有吸引力的结果,因为它们能够在生成的 3D 模型中包含精细的细节。
单视图 3D 重建:最终想法
在本文中,我们讨论了单视图 3D 对象重建,讨论了它的工作原理,并讨论了两个基线:检索和分类,检索基线方法优于当前最先进的模型。最后,虽然 单视图 3D 对象重建 是 AI 社区中最热门的话题和研究最多的话题之一,尽管在过去几年中取得了重大进展,但单视图 3D 对象重建还远未达到完美,在未来几年还需要克服重大障碍。