体素方法缺点:
用于3D语义分割的最新技术(SOTA)方法使用3D稀疏体素卷积运算符来处理输入数据。例如,MinkowskiNet和SparseConvNet 各自将输入数据加载到稀疏3D体素网格中,并使用稀疏3D卷积提取特征。这些“placecentric”的方法旨在识别3D模式,因此对于具有独特3D形状的对象类型(例如椅子)效果很好,而对其他对象(例如墙面图片)效果不佳。它们还占用了大量内存,这限制了空间分辨率和/或批处理大小。多视图方法缺点:
当可获得posed RGB-D图像时,尝试使用为处理摄影RGB图像而设计的2D网络预测密集的特征和/或语义标签,然后将它们聚集在可见的3D表面上,或者将特征投影到可见的表面上,并在3D中将它们进一步卷积。尽管这些“view-centric”的方法利用了在大型RGB图像数据集上进行预训练的大规模图像处理网络,但由于在RGB-D扫描数据集中存在遮挡,光照变化和相机姿态未对准的困难,因此无法在标准3D分割基准上达到SOTA性能。在ScanNet基准测试的3D语义标签挑战赛中,基于视图的方法目前不在当前排行榜的上半部分。本文提出了一种新的基于视图的3D语义分割方法,该方法克服了先前方法的问题。关键思想是使用从3D场景的“虚拟视图”渲染的合成图像,而不是将处理限制为由物理相机获取的原始摄影图像。
这种方法具有几个优点,可以解决以前以视图为中心的方法遇到的关键问题。
首先,为虚拟视图with unnaturally wide field-of-view选择相机固有特性,以增加在每个渲染图像中观察到的上下文。其次,在与场景表面的距离/角度变化较小,对象之间的遮挡相对较少以及表面覆盖范围较大的位置选择虚拟视点。第三,通过背面的表面渲染非照片级的图像,而没有依赖于视图的照明效果和遮挡-即,虚拟视图可以从墙,地板和天花板后面观察场景,从而提供具有相对较大上下文和很少遮挡的视图。第四,根据确切已知的虚拟视图相机参数将逐像素的预测汇总到3D表面上,因此不会在遮挡轮廓上遇到语义标签的“bleeding”。第五,训练和推理期间的虚拟视图可以模仿多尺度训练和测试,并避免2D CNN的尺度不变性问题。在训练和测试期间,可以生成任意数量的虚拟视图。在训练期间,由于数据扩充,更多的虚拟视图提供了鲁棒性。在测试期间,由于投票冗余,更多视图提供了鲁棒性。最后,本文多视图融合方法中的2D分割模型可以受益于ImageNet和COCO之类的大图像预训练数据,而纯3D卷积方法则无法使用这些数据。虚拟视图选择是所提出的多视图融合方法的核心,因为它带来了超过具有原始图像视图的多视图融合的关键优势。
首先,它使我们能够自由选择最适合2D语义分割任务的摄像机参数,并使用任何2D数据扩充方法。其次,它通过放宽真实相机的物理约束并允许来自不真实但有用的相机位置的视图来显着拓宽可供选择的视图范围,从而显着提高了模型性能,例如在墙后面。第三,它允许2D视图捕捉其他通道,这些通道很难用真实的相机捕捉,例如法线和坐标。最后,通过选择和渲染虚拟视图,基本上消除了相机校准和姿势估计中的任何错误,这些错误在3D重建过程中很常见。最后,在不同比例尺上一致地采样视图可解决传统2D CNN的比例尺不变性问题。
均匀采样:
均匀采样相机外部,以生成许多新颖的视图,而与3D场景的特定结构无关。具体,使用3D场景顶部均匀采样位置的自顶向下视图,以及从场景中心看去但均匀采样位置的视图。尺度不变采样:
由于2D卷积神经网络通常不是尺度不变的,因此如果视图的尺度与3D场景不匹配,则模型性能可能会受到影响。为了克服此限制,针对3D场景中的片段以一定比例尺对视图进行采样。具体来说,对3D场景进行了过度分割,对于每个片段,都将相机定位为通过沿法线方向拉回到一定范围的距离来观看片段。进行深度检查以避免前景物体的遮挡。如果在渲染阶段禁用了背面剔除,将进行光线跟踪并删除被背面遮挡的所有视图。3D场景的过度分割是不受监督的,并且不使用地面真实语义标签,因此尺度不变采样可以应用于训练和推理阶段。类平衡采样:
类平衡已被广泛用作2D语义分段的数据增强方法。通过选择查看代表性不足的语义类别的网格段的视图来进行类平衡,类似于尺度不变采样方法。注意,这种采样方法仅适用于ground truth语义标签可用的训练阶段。Original views sampling:
从原始摄影机视图中进行采样,因为它们代表了人工如何在具有实际物理约束的真实3D场景中选择摄影机视图。此外,3D场景是从原始视图重建的,因此包含它们可以确保覆盖拐角情况,否则这些情况很难作为随机虚拟视图。为了利用场景中所有可用的3D信息,渲染了以下通道:
RGB颜色、法线、归一化的全局XYZ坐标。额外的通道使得能够超越现有的RGB-D传感器的限制。虽然深度图像也包含相同的信息,但论文认为归一化的全局坐标图像使学习问题更简单,因为现在就像法线和颜色通道一样,同一3D点的坐标值是视图不变的。
Rendering parameters
在渲染中打开背面剔除,这样背面就不会阻挡相机视图,进一步放松了3D场景的物理约束,并扩展了视图选择的设计空间。
如图6所示,在室内场景中,可以选择房间外的视图,这些视图通常包含更多的房间上下文,并可能提高模型性能;另一方面,当背面剔除关闭时,我们要么被限制在房间内的视图中,因此限制了上下文,要么受到墙壁背面的高度遮挡。
Training vs. inference stage
在训练和推理阶段使用类似的视图选择方法,以避免产生领域差距,例如,如果我们在训练阶段采样了许多自顶向下的视图,但在推理阶段使用了许多水平视图。这两个阶段的视图选择策略的主要区别是只能在训练阶段完成的类平衡。
虽然推理成本在现实世界的应用中可能很重要,但在本文中,考虑离线3D分割任务且不在任何一个阶段优化计算成本,所以论文在任何一个阶段使用任意多的虚拟视图。
用渲染的虚拟视图作为训练数据,训练一个2D语义分割模型。使用xception 65特征提取器和DeeplabV3+ 解码器。
从在ImageNet上训练的预先训练的分类模型检查点初始化模型。当使用附加输入通道(如正常图像和坐标图像)训练模型时,通过将权重平铺在附加通道上并在每个空间位置对其进行归一化来修改预训练检查点的第一层,使得沿着通道维度的权重总和保持不变。
在推理过程中,在虚拟视图上运行2D语义分割模型,并获得图像特征(例如,每个像素的一元概率)。为了将2D图像特征投影到3D,使用以下方法:
在虚拟视图上渲染深度通道;对于每个3D点,将其投影回每个虚拟视图,并且仅当像素的深度与点到相机的距离匹配时,才累积投影像素的图像特征。与从每个像素投射光线以找到要聚集的3D点的替代方法相比,该方法实现了更好的计算效率。首先,场景中3D点的数量远小于场景的所有渲染图像中的像素总数。其次,使用深度检查投影3D点比涉及光线投射的操作更快。