当前位置: 首页 > 科技观察

最新3D GAN可生成三维几何数据了!模型速度提升七倍

时间:2023-03-18 21:08:07 科技观察

最新的3DGAN可以生成三维几何数据!模型速度提升七倍2D图片变成3D,3D几何数据也能给出?英伟达和斯坦福大学联合推出的GAN,着实刷新了3DGAN的新高度。而且生成的图像质量也更高,视角可以随意晃动,人脸不变形。与过去的传统方法相比,速度可以提高7倍,同时占用的内存不到十六分之一。最厉害的是它还可以给出3D的几何数据,比如这些石像效果,是根据提取的位置信息重新渲染得到的。它甚至可以实时交互编辑。该框架一经发布,就在推特上吸引了大量网友的关注,点赞达600+。最新的3DGAN可以生成三维几何数据!模型速度提升7倍|Nvidia&Stanford》>怎么样?从2D升级到3D的想象是不是又被刷新了?可见-隐藏混合+双重识别其实只用一张单视角2D照片来生成3D效果,之前有人做过可以实现的模型框架很多,但要么计算量非常大,要么给出的近似值与真实3D效果不一致,导致生成的效果质量不高、变形等问题。为了解决上述问题,研究人员提出了一种混合显式-隐式网络架构。这种方法可以绕过计算限制,不会过多依赖上采样图像。最新的3DGAN可以生成三维几何数据!模型速度提高by7times|NVIDIA&Stanford》>从比较可以看出,纯隐式神经网络(如NeRF)使用全连接层(FC)和位置编码(PE)to表示场景,这会导致确定位置的速度很慢。混合了小型隐式解码器框架的纯显式神经网络速度更快,但不能保证高分辨率输出。最新的3DGAN可以生成三维几何数据!模型速度提升7倍|Nvidia&Stanford》>Nvidia和斯坦福大学提出的新方法EG3D结合了显式和隐式表示的优点,主要包括基于StyleGAN2的特征生成器和映射网络、轻量级特征解码器、神经渲染模块、超级-resolution模块和一个可以双重识别位置的StyleGAN2判别器,其中神经网络的主干是显式表示,可以输出3D坐标;解码器部分是隐式的。与典型的多层感知机制相比,这种方法的速度可以提高7倍,同时占用的内存不到十六分之一。同时,该方法还继承了StyleGAN2的特征,如效果好的潜在空间。例如,在数据集FFHQ中插值后,EG3D表现非常好:该方法使用中等分辨率(128x128)进行渲染,然后使用2D图像空间卷积来提高最终输出的分辨率和图像质量。这种双重认证可以保证最终输出图像和渲染输出的一致性,从而避免不同视图下卷积层不一致带来的问题。△两张图左半边是最终输出效果,右半边是没有使用双重识别方式的渲染输出,在嘴角等细节处会有一些变形。△左图未使用双标识;右图为EG3D方法的效果数据。与之前的方法相比,EG3D方法在256分辨率和512分辨率下的距离得分(FID)、识别一致性(ID)和深度精度以及姿态精度,性能更好。最新的3DGAN可以生成三维几何数据!模型速度提升7倍|Nvidia&Stanford》>团队介绍本研究由Nvidia和斯坦福大学共同完成,共有4位共同作者,分别是:EricR.Chan、ConnorZ.Lin、MatthewA.Chan、KokiNagano,其中,EricR.Chan是斯坦福大学的博士生,之前参与过一些将2D图像转化为3D的方法,比如pi-GAN,最新的3DGAN可以生成3D几何数据!模型速度提升7倍|NVIDIA&Stanford">ConnorZ.Lin是一名博士。2斯坦福大学研究生。本科和硕士都在卡内基梅隆大学学习。他的研究兴趣包括计算机图形学和深度学习。最新的3DGAN可以生成三维几何数据!模型速度提升7倍|Nvidia&Stanford》>MatthewA.Chan是研究助理,以上三位均来自斯坦福大学计算影像实验室。KokiNagano目前在Nvidia工作,担任高级研究员,研究方向是计算机图形学,他毕业于东京大学,学士学位,最新的3DGAN可以生成三维几何数据!模型速度提升7倍|Nvidia&Stanford》>论文地址:https://arxiv.org/abs/2112.07945