本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。先来看一个大片岛:这不是任何摄影师的杰作,而是GANcraft的作品。原图是《我的世界》中马赛克画质的场景:现在《我的世界》真的变成了,我的世界!GANcraft是Nvidia和康奈尔大学的合作项目。它是一个无监督的3D神经渲染框架,可以将大型3D块世界生成为逼真的图像。史无前例的现实主义有多现实?并与其他模型进行比较。以下是两种场景下使用MUNIT、GauGAN使用的SPADE、wc-vid2vid、NSVF-W(NSVF+NeRF-W)产生的效果。再感受一下GANcraft的效果:(颜色和画质都压缩了)通过对比可以看出MUNIT、SPADE等im2im(image-to-imageconversion)方法无法保持透视的一致性,因为模型不理解3D几何图形,每一帧都是独立生成的。wc-vid2vid生成视图一致的视频,但由于块状几何形状和训练测试域中的错误累积,图像质量会随着时间的推移而迅速下降。NSVF-W也产生与视图一致的输出,但看起来单调且缺乏细节。GANcraft生成的图像不仅保持了视野的一致性,而且质量很高。你是怎么做到的?原理概述GANcraft中神经渲染的使用保证了视图的一致性,同时创新的模型架构和训练方案实现了前所未有的真实感。具体来说,研究人员结合了3D体积渲染器和2D图像空间渲染器,使用Hybird体素条件神经渲染方法。首先,定义一个由体素(即体积元素)界定的神经辐射场,并为块的每个角分配一个可学习的特征向量;然后使用三线性插值来定义体素位置代码内的任何位置,将世界表示为连续的体积函数;每个块都被分配了一个语义标签,例如泥土、草地或水。然后,使用MLP隐式定义辐射场,将位置代码、语义标签和共享样式代码作为输入,并生成点特征(类似于辐射)及其体积密度。最后给出相机参数,通过渲染辐射场得到2D特征图,再通过CNN转换成图像。虽然可以建立以体素为条件的神经渲染模型,但是没有图像可以作为groundtruth。为此,研究人员采用了对抗训练的方法。但《我的世界》不同于现实世界,它的邻域通常会有完全不同的标签分布,比如:场景完全被雪或水覆盖,或者一个区域出现多个生物群落。使用互联网照片进行的对抗性训练在随机抽样时会产生不切实际的结果:因此研究人员会生成用于训练的伪基本事实。使用预训练的SPADE模型,通过2D语义分割掩码获得具有相同语义的伪地面真值图像。这不仅减少了标签和图像分配之间的不匹配,而且还实现了更快、更稳定的训练,损失更大。生成效果显着提升:此外,GANcraft还允许用户控制场景语义和输出样式:它的介绍页面提到:它让每个Minecraft玩家都成为3D艺术家!而且,它简化了复杂景观场景的3D建模过程,无需多年的专业知识。GANcraft即将开源。感兴趣的读者可以点击链接了解详情~参考链接:[1]https://nvlabs.github.io/GANcraft/[2]https://arxiv.org/abs/2104.07659[3]https://news.ycombinator.com/item?id=26833972
