如今,每隔一段时间就会有新的文本生成图像模型出炉,每一个都有强大的效果,每一次都让大家惊叹不已,这个领域已经如火如荼。然而,像OpenAI的DALL-E2或谷歌的Imagen这样的人工智能系统只能生成二维图像。如果文字也能变成三维场景,视觉体验将翻倍。现在,来自苹果的AI团队推出了最新的3D场景生成神经架构——GAUDI。它可以捕获复杂而逼真的3D场景分布,从移动的相机中执行身临其境的渲染,并从文本提示创建3D场景!该模型以西班牙著名建筑师安东尼·高迪的名字命名。论文地址:https://arxiv.org/pdf/2207.13751.pdf1基于NeRFs的3D渲染神经渲染(nerualrendering)将计算机图形学与人工智能相结合,已经产生了很多从2D图像生成3D模型的系统。例如,Nvidia最近开发的3DMoMa可以在一小时内用不到100张照片创建3D模型。谷歌还依靠神经辐射场(NeRFs)将2D卫星和街景图像结合到谷歌地图中的3D场景中,以获得身临其境的视图。Google的HumanNeRF还可以从视频中渲染3D人体。目前,NeRFs主要用作3D模型和3D场景的神经存储介质,可以从不同的相机视角进行渲染。NeRF也开始用于虚拟现实体验。那么,NeRFs从不同摄像机角度逼真渲染图像的强大能力是否可以用于生成AI?当然,也有研究团队尝试过3D场景的生成。比如谷歌去年首次推出AI系统DreamFields。它结合了NeRF生成3D视图的能力和OpenAI的CLIP评估图像内容的能力,最终实现了GenerateNeRFmatchingtextdescriptions的能力。图注:GoogleDreamFields然而,Google的DreamFields只能生成单个物体的3D视图,要将其扩展到完全不受约束的3D场景还有很多困难。最大的困难在于摄像头的位置非常有限。对于单个物体,每一个可能的、合理的摄像机位置都可以映射到一个圆顶上,但是在3D场景中,摄像机的位置会受到物体、墙壁等障碍物的限制。如果在场景生成时不考虑这些因素,则很难生成3D场景。23D渲染专家GAUDI针对上述相机位置受限的问题,苹果的GAUDI模型提出了三个专门的网络来轻松处理:因此,可以预测相机的可能位置并确保输出是3D场景架构的有效位置。图例:解码器模型架构场景的场景解码器可以预测三维平面的表示,这是一种3D画布。然后,辐射场解码器使用体绘制方程在此画布上绘制后续图像。GAUDI的3D生成包括两个阶段:一个是潜在参数和网络参数的优化:学习潜在表示,对3D辐射场和数千个轨迹的相应相机位姿进行编码。与单个物体不同,有效相机位姿因场景而异,因此有必要对每个场景的有效相机位姿进行编码。第二种是使用扩散模型在潜在表示之上学习生成模型,这可以在条件和无条件推理任务中很好地建模。前者根据文本或图像线索生成3D场景,而后者根据摄像机轨迹生成3D场景。从3D室内场景,GAUDI可以生成新的相机运动。正如下面的一些示例,文本描述包含有关场景和导航路径的信息。这里研究团队采用了预训练的基于RoBERTa的文本编码器,并使用其中间表示来调整扩散模型,生成的效果如下:文本提示:走进厨房文本提示:上楼文本提示:走通过走廊使用训练有素的ResNet-18作为图像编码器,GAUDI能够对从随机视点观察到的给定图像的辐射场进行采样,根据图像线索创建3D场景。ImageHint:Generating3DScenes:ImageHint:Generating3DScenes:在包括室内扫描数据集ARKitScences在内的四个不同数据集上进行的实验表明,GAUDI可以重建学习到的视图,并且与现有方法的质量相匹配。即使在为数千个室内场景制作具有数十万张图像的3D场景的艰巨任务中,GAUDI也没有出现模式崩溃或方向问题。GAUDI的出现不仅会对很多计算机视觉任务产生影响,其生成3D场景的能力也将有利于基于模型的强化学习与规划、SLAM、3D内容制作等研究领域。到目前为止,GAUDI生成的视频质量不高,可以看出有很多伪影。然而,这个系统可能是一个良好的开端,也是苹果正在进行的用于渲染3D对象和场景的人工智能系统的基础。据称,GAUDI还将应用于苹果的XR耳机,生成数字位。可以期待一下~
