视图合成(viewsynthesis)是计算机视觉和计算机图形学交叉领域的一个关键问题。它是指从场景的多张图片创建场景的新视图。为了准确合成场景的新视图,模型需要从一小组参考图像中捕获多种类型的信息,例如详细的3D结构、材料和照明。自从研究人员在2020年提出神经辐射场(NeRF)模型以来,这个问题也受到了越来越多的关注,极大地促进了新视图合成的性能。超级玩家之一是谷歌,它在NeRF领域也发表了多篇论文。本文将介绍谷歌在CVPR2022和ECCV2022上发表的两篇论文,描述光场神经渲染模型的演化过程。第一篇论文提出了一种基于Transformer的两阶段模型来学习组合参考像素颜色,首先获取沿对极线(epipolarlines)的特征,然后获取沿参考视图的特征生成目标光线的颜色,这大大提高了视图再现的准确性。论文链接:https://arxiv.org/pdf/2112.09687.pdf经典光场渲染(LightFieldRendering)可以准确再现与视图相关的效果,例如反射、折射和半透明,但需要场景中的密集视图采样。基于几何重建的方法只需要稀疏视图,但不能准确地模拟非朗伯效应,即非理想散射。本文提出的新模型结合了这两个方向的优点并减轻了它们的局限性。通过对光场的4D表示进行操作,模型可以学习准确地表示视图相关的效果。通过在训练和推理期间实施几何约束,从一组稀疏视图中隐式地学习场景几何。该模型在多个前向和360°数据集上的表现优于最先进的模型,并且在具有严重依赖注视变化的场景中具有较大的余量。另一篇论文通过使用具有规范化位置编码的Transformer序列来解决合成未见场景的泛化问题。在一组场景上训练模型后,它可用于合成新场景的视图。论文链接:https://arxiv.org/pdf/2207.10662.pdf论文提出了一种不同的范式,不需要深度特征和类似NeRF的体积渲染。该方法只需要从场景中采样patchset即可直接预测新场景中目标光线的颜色。首先,使用对极几何,沿着每个参考视图的对极线提取patch,并将每个patch线性投影成一维特征向量,然后通过一系列Transformers处理这个集合。对于位置编码,研究人员采用与光场表示法类似的方式对射线进行参数化,不同之处在于坐标相对于目标射线进行归一化,这也使得该方法独立于参考系,提高了通用性。该模型的创新之处在于它进行基于图像的渲染,结合参考图像的颜色和特征来渲染新的视图,并且它是纯基于Transformer的,在图像补丁集上进行操作。他们利用4D光场表示进行位置编码,有助于模拟视点相关的效果。最后,实验结果表明,所提出的方法在合成未见场景的新视图方面优于其他方法,即使在使用更少的数据进行训练时也是如此。光场神经渲染模型的输入包括一组参考图像、相应的相机参数(焦距、位置和空间方向),以及用户想要确定其颜色的目标光线的坐标。要生成新图像,我们需要从输入图像的相机参数入手,首先获取目标射线的坐标(每条射线对应一个像素点),并对每个坐标进行模型查询。研究人员的解决方案是不对每个参考图像进行整体处理,而是只查看可能影响感兴趣像素的区域。这些区域可以通过对极几何来确定,将每个感兴趣的像素映射到每个参考帧上的一条线上。为了安全起见,需要在对极线上的一些点周围选择一个小区域,形成一组将被模型实际处理的patch,然后将Transformer应用到这组patch上,得到patch的颜色目标像素。Transformer在这种情况下特别有用,因为其中的自注意力机制可以自然地将补丁集作为输入,并且注意力权重本身可以用于结合参考视图颜色和特征来预测输出像素的颜色.在光场神经渲染(LFNR)中,研究人员使用两个Transformer序列将一组色块映射到目标像素颜色。第一个Transformer沿每条对极线聚合信息,第二个Transformer沿每个参考图像聚合信息。这种方法可以将第一个Transformer解释为在每个参考帧上寻找目标像素的潜在对应关系,而第二个Transformer正在推理遮挡和视线相关效应,这也是基于图像的渲染中的常见困难。.LFNR在最流行的视图合成基准(NeRF的Blender和RealForward-Facing场景以及NeX的Shiny)上,与sota模型相比,峰值信噪比(PSNR)提高了5dB,相当于减少像素-级错误增加了1.8倍。LFNR可以在NeX/Shiny数据集中重现一些更困难的视图相关效果,例如CD上的彩虹和反射,以及瓶子上的反射、折射和半透明。与之前的方法(如NeX和NeRF)相比,它们无法在NeX/Shiny数据集中重现实验室场景中试管的半透明度和折射率等与视线相关的效果。一旦训练,泛化到新场景,但LFNR也有局限性。第一个Transformer为每个参考图像沿着每条对极线独立折叠信息,这也意味着模型只能根据单个场景中每个参考图像的输出光线坐标和patch来决定保留哪些信息。在训练期间效果很好(与大多数神经渲染方法一样),但它不能推广到不同的场景。可泛化模型很重要,因为它们可以直接应用于新场景而无需重新训练。研究人员提出了一种通用的基于补丁的神经渲染(GPNR)模型来解决LFNR的这一缺点。通过向模型添加一个Transformer,它在其他两个Transformer之前运行,并在所有参考图像中相同深度的点之间交换信息。GPNR由一系列三个Transformer组成,这些Transformer将沿对极线提取的一组色块映射到像素颜色。图像块通过线性投影层映射到初始特征,然后这些特征通过模型不断细化和聚合,最终形成特征和颜色。例如,在第一个Transformer从“公园长椅”中提取一系列补丁后,新模型可以使用出现在两??个视图中相应深度的“花”等提示来指示潜在匹配。这项工作的另一个关键思想是根据目标光线对位置代码进行归一化,因为如果要在不同的场景下进行泛化,就必须以相对而非绝对的参考系来表达数量。为了评估模型的泛化性能,研究人员在一组场景上训练GPNR,并在新场景上进行测试。GPNR在多个基准测试(遵循IBRNet和MVSNeRF协议)上平均提高了0.5-1.0dB,尤其是在IBRNet基准测试上,GPNR仅使用11%的训练场景就优于基线模型。查看GPNR在NeX/Shiny和LLFF的保持场景上生成的细节,无需任何微调。与IBRNet相比,GPNR可以更准确地再现树叶和镜头折射的细节。
