前段时间,CVPR2022公布了今年论文的录用结果,这也意味着投稿的论文终于过了静默期。不少作者感叹:终于可以在社交媒体上聊聊我们的论文了!今天要展示的论文来自谷歌研究院和哈佛大学。据谷歌研究科学家兼论文第一作者JonBarron介绍,他们开发了一种名为Mip-NeRF360的模型,可以生成无界场景的逼真渲染图,为我们提供360°逼真度和美丽的深度图。下面放几张效果图:这么好的效果什么时候用在VR头盔上?.io/instant-ngp/),所以把它放在VR耳机上应该是可行的。”论文概述NeuralRadiativeField(NeRF)byWeightingaCoordinate-BasedMultilayerPerceptron(MLP)对场景的体积密度和颜色进行编码,以合成高度逼真的场景渲染。这种方法在现实视图合成方面取得了重大进展[30]。然而,NeRF使用3D点对MLP的输入进行建模,这会在渲染不同分辨率的视图时导致混叠。基于这个问题,Mip-NeRF将NeRF扩展为不再推理沿锥体的体积平截头体[3]。虽然这提高了质量,但NeRF和mipNeRF在处理无界场景时面临挑战,在这种情况下,相机可能面向任何方向,场景内容可能位于任何地方。在这篇论文中,研究人员提出了mip-NeRF的扩展,mip-NeRF360,它能够生成这些无界场景的逼真渲染图(图1)。将类NeRF模型应用于大型无界场景会引发三个关键问题:参数化问题。mip-NeRF需要将3D场景坐标映射到有界域,因此无界的360度场景将占据无限的欧几里德空间区域。效率问题。巨大而详细的场景需要巨大的网络容量,因此在训练时频繁地沿每条射线查询巨大的MLP网络将产生巨大的成本。歧义问题。无界360度场景的背景区域明显比中心区域亮。这种现象加剧了从2D图像重建3D内容时固有的模糊性。基于以上问题,研究人员提出了mip-NeRF的扩展模型,该模型使用非线性场景参数化、在线蒸馏和新颖的基于失真的正则化器来克服无界场景带来的挑战。这个新模型被称为“mip-NeRF360”,因为研究是在相机围绕一个点旋转360度的场景中进行的,与mip-NeRF相比,均方误差减少了54%,并且是能够为高度复杂、无限的现实世界场景生成逼真的合成视图和详细的深度图。论文链接:https://arxiv.org/pdf/2111.12077.pdf视频解读:https://www.youtube.com/watch?v=zBSH-k9GbV4技术细节让mip-NeRF在无界场景下正常工作有三个主要问题,以及本文的三个主要贡献旨在解决这些问题。接下来,我们就来看看笔者给出的解读视频吧。第一个问题是,在表示方面,mip-NeRF适用于有界坐标空间,而不适用于无界场景。研究人员使用看起来像是卡尔曼滤波器扩展版的东西将mip-NeRF函数扭曲的高斯转换为非欧几里得空间。第二个问题是场景通常很详细。如果想对无界场景使用mip-NeRF,可以把网络做大一些,但是这样会减慢训练速度。于是,在优化阶段,研究人员提出训练一个更小的MLP来限制空间大小,这样可以让训练速度快三倍。第三个问题是在更大的场景中,3D重建的结果会变得模糊,产生伪影。为了解决这个问题,研究人员引入了一种专门针对mip-NeRF中射线间距的新型正则化器。先说第一个问题,以三个摄像头的平面场景为例。在mip-NeRF中,这些相机将高斯函数投射到场景中。在大场景中,这会导致高斯逐渐远离原点并变长。这是因为mip-NeRF需要基于有界坐标空间,高斯函数有些各向同性。为了解决这个问题,研究人员定义了一个变形函数来平滑地将蓝色圆圈(UnaffectedDomain)外的坐标映射到橙色圆圈(ContractedDomain)。warp函数旨在消除mip-NeRF中高斯非线性间距的影响。为了将这种失真应用于mip-NeRF中的高斯函数,研究人员使用了卡尔曼滤波器的扩展版本,从而可以将没有边界的场景限制在橙色圆圈内,这是一个坐标所在的非欧几里得空间MLP的输入。为了理解论文中的在线蒸馏模型,我们首先需要介绍一下mip-NeRF是如何训练和采样的。在mip-NeRF中,首先需要定义一组大致均匀分布的区间,可以理解为直方图中的端点。如图所示,每个区间的高斯函数被送入mlp,并得到直方图权重w^c和颜色c^c。然后对这些颜色进行加权得到像素的颜色C^c。然后对这些权重进行重新采样并获得一组新的间隔,端点聚集在场景中有内容的地方。这种重采样可以进行多次,但为方便起见,此处仅显示一次。这个新的区间内的数据被送入同一个MLP得到一组新的权重和颜色,然后加权得到像素的颜色C^f。mip-NeRF只是最小化了所有渲染像素值和输入图像真实像素值之间的重建损失。只有精细的颜色用于渲染最终图像,这是非常浪费的。粗略渲染需要监督学习的唯一原因是帮助指导精细直方图的采样,这是一种激发我们模型训练和采样过程的观察结果。研究人员从一组均匀分布的直方图开始,并将它们输入到拟议的MLP中以生成一组权重,但不是颜色。这些权重被重新采样,同样这个过程可以重复多次,但他们在视频中只展示了一个重新采用的过程。他们提出的mlp产生的最后一组间隔被送入另一个mlp,该mlp的行为与mip-NeRF完全相同,他们称之为NeRFmlp。NeRFmlp为他们提供了一组可用于渲染像素颜色的权重和颜色。研究人员将利用监督学习,使像素渲染得到的颜色接近真实图片中的颜色。他们没有监督论文中提出的mlp来重建图像,而是使监督输出权重与NeRFmlp的权重一致。这种设置意味着只有一个小的mlp需要经常访问,而较大的NeRFmlp不需要访问那么多。为了让模型发挥作用,他们需要一个损失函数来鼓励具有不同分箱的直方图彼此一致。为了说明这一点,他们在左侧构建了一个真实的一维分布,在右侧构建了该真实分布的两个直方图,如上所示。因为这两个直方图描绘了相同的分布,研究人员可以对它们的关系做出一些强有力的断言,比如上面突出显示的区间的权重一定不能超过下面直方图中与它重叠的区间权重的总和。基于这一事实,他们可以使用一个直方图的权重来构建另一个直方图权重的上限。同样,如果两个直方图同时描述相同的真实分布,则必须确定上限。因此,在训练过程中,研究人员分别在他们提出的mlp和NeRFmlp生成的直方图之间构建了一个损失,这会惩罚任何超出此处以红色显示的边界的超量。通过这种方式,鼓励他们提出的mlp学习什么是有效上限。基于nerfmlp学习的体积场景密度,新模型中用于解决歧义的组件是射线直方图上的简单正则化器,它们简单地最小化沿射线的所有点之间的加权绝对距离,以鼓励每个直方图作为尽可能接近delta函数。这里显示的这个二重积分不容易计算,但是可以导出一个很好的封闭形式,它很容易计算。实验结果表1显示了数据集中测试图像的平均PSNR、SSIM[46]和LPIPS[49]。可以看出,本文提出的模型大大优于之前所有的NeRF-like模型,可以看出均方误差相比mip-NeRF降低了54%,而训练时间仅为1.92倍。在表2中,研究人员在自行车场景中对模型进行了消融研究,并在此处总结了结果。A)移除L_prop会导致灾难性的失败,因为MLP是完全无人监督的。B)移除L_dist会引入伪影,从而降低图像质量(参见图5)。C)Mildenhall等人提出的正则化器。[30]将高斯噪声(σ=1)注入到密度中,但不如我们的正则化器有效。D)移除研究人员提出的MLP并使用单个MLP对场景和权重进行建模不会降低性能,但与他们提出的MLP相比,训练时间增加了约2倍。E)移除MLP并使用mip-NeRF训练所提出的模型(在所有粗尺度上应用L_recon而不是L_prop)会降低速度和准确性,证明研究人员使用的监督策略是合理的。F)使用小型NeRFMLP(256个隐藏单元而不是1024个隐藏单元)可加快训练速度但会降低质量,展示了高容量MLP在对详细场景建模方面的价值。G)完全移除IPE并使用NeRF的位置编码[30]会降低性能,显示基于mip-NeRF而不是NeRF的价值。H)去除收缩和增加位置编码频率来限制场景会降低准确性和速度。I)使用DONeRF[31]中提出的参数化和对数射线间距会降低精度。J)尽管使用NeRF++[48]中提出的双MLP参数化可以胜过本文中的技术-以训练时间加倍为代价,因为MLP的验证时间加倍(为了保持恒定的模型容量,研究人员将两个MLP的隐藏单元数除以√2)。有关更多详细信息,请参阅原始论文。
