当前位置: 首页 > 科技观察

一张照片生成3D模型,GAN与autoencoder碰撞创造奇迹

时间:2023-03-12 11:52:31 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。2D图片“脑补”3D模型,这次真的只用一张图——随便给AI喂一张,它就能为你生成不同角度的“新视角”:不仅拿到了360°的椅子和车,甚至在人脸上玩出新花样,从“死亡自拍”的角度到仰视都可以生成:更有趣的是,这个名为Pix2NeRF的AI,连训练数据集都有些“开箱即用”并且可以学习在没有3D数据、多视图或相机参数的情况下生成新视图。可以说NeRF系列的AI又上了一个台阶。使用GAN+自动编码器学习“脑补”在此之前,NeRF可以通过多视角训练AI模型,使其能够从新的视角学习生成3D物体照片。但是,这也导致了一系列使用NeRF方法的模型,包括PixelNeRF和GRF,都需要使用多视图数据集来训练更好的2D来生成3D模型效果。然而,多视图数据集往往是有限的,训练时间相对较长。因此,作者想出了一个新的方法,就是用一个autoencoder来提取物体的pose和shape特征,然后用GAN直接生成新的透视图。Pix2NeRF包含三种网络架构,分别是GenerativeNetworkG、DiscriminativeNetworkD和EncoderE。其中,生成网络G和判别网络D组成生成对抗网络GAN,使用encoderE和生成网络G形成自编码器:首先,自编码器可以通过无监督学习获得输入图像的隐藏特征,包括物体姿态和物体形状,并使用学习到的特征重建原始数据;然后,使用GAN通过姿势和形状数据重建一个不同于原始物体形状的新视图。这里研究人员使用了一种叫做π-GAN的结构,它比其他类型的GAN更擅长生成3D透视照片(作者还对比了一篇使用HoloGAN的论文):那么,这个“混搭”出来的AI效果如何模型?模糊图也可以产生新的视角作者首先进行了一系列的消融实验,以验证不同的训练方法和模型架构是否真的可以提高Pix2NeRF的效果。比如去掉模型的GAN逆映射和autoencoder,或者不使用warmup预热学习率等,然后尝试从新的角度生成人脸:其中,GAN逆映射的目的(inversion)是将给定的图像Inversion转换回预训练的GAN模型的latentspace,以便生成器从inversioncode重建图像。实验表明,除完整模型外,去除各种方法的模型后,生成人脸的效果都不够好。然后,作者将生成的照片的性能与生成新视图的其他AI模型进行了比较。结果表明,虽然Pix2NeRF在ShapeNet-SRN的生成上不如PixelNeRF,但效果比较接近:在CelebA和CARLA数据集上,Pix2NeRF基本取得了最好的效果。此外,该机型还自带一些“美化”功能。即使将模糊图像送进来,也能给GAN一个更平滑的轮廓:总体来说,除了人脸可以从不同角度生成新的视图外,物体也可以脑补不同姿势下的效果360°:看来AI和人类一样,学会了“脑补”从未见过的物体形状。作者简介本论文的作者均来自苏黎世联邦理工学院(ETH)。该论文的第一作者是ETH硕士生蔡盛渠。他毕业于伦敦国王学院,获得学士学位。他的研究方向是神经渲染、生成模型和无监督学习。高中毕业于辽宁省实验中学。ETH博士生AntonObukhov,曾在NVIDIA等公司工作,研究方向为计算机视觉和机器学习。戴登新,马克斯普朗克研究所高级研究员,ETH讲师(外聘),研究方向为自动驾驶、传感器融合和有限监督下的目标检测。ETH计算机视觉教授LucVanGool在Google的学术引用次数超过150,000次,他的研究主要集中在2D和3D物体识别、机器人视觉和光流。这项研究的代码目前正在准备中。有兴趣的朋友可以蹲一会~论文地址:https://arxiv.org/abs/2202.13162项目地址:https://github.com/sxyu/pixel-nerf