KnightRider使用GAN模型:AI和NVIDIAOmniverse让KITT栩栩如生. GANverse3D应用程序由位于多伦多的NVIDIAAI研究实验室开发,可将平面图像升级为逼真的3D模型,可以在虚拟环境中进行可视化和控制。这种性能有助于建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的模型中,而无需3D建模专业知识或在渲染上花费大量预算。 例如,汽车的单张照片可以转换为3D模型,可以在虚拟场景中驾驶,并配有逼真的前灯、尾灯和转向灯。 为了生成训练数据集,研究人员使用生成对抗网络(GAN)合成从多个角度描绘同一物体的图像——就像摄影师在停放的汽车周围走来走去,从不同角度拍照。这些多视图图像被插入到逆向图形的渲染框架中,即从2D图像推断3D网格模型的过程。 一旦多视图图像训练完成,GANverse3D只需要一个2D图像来预测3D网格模型。该模型可以与3DNeuralRenderer一起使用,使开发人员能够自定义对象和交换背景。 当作为NVIDIAOmniverse平台的扩展导入并在NVIDIARTXGPU上运行时,GANverse3D可以将任何2D图像重建为3D,就像1980年代流行的KnightRider电视节目中备受喜爱的打击犯罪游戏一样。车KITT同。 以前的逆向图模型依赖于3D图作为训练数据。 相反,在没有3D特征帮助的情况下,“我们将GAN模型变成了一个非常高效的数据生成器,这样我们就可以从网络上的任何2D图像创建3D对象。 “因为我们训练的是真实图像而不是合成数据,所以AI模型可以更好地泛化到现实世界的应用程序,”NVIDIA研究科学家、该项目的主要作者WenzhengChen说。 GANverse3D背后的研究将在即将举行的两个会议上展示:5月的ICLR和6月的CVPR。 从爆胎到赛车KITT 游戏、建筑和设计领域的创作者依靠虚拟环境(例如NVIDIAOmniverse模拟和协作平台)在创建最终产品之前测试新想法并可视化原型。借助Omniverse连接器,开发人员可以使用他们喜欢的3D应用程序,该应用程序使用实时光线追踪来模拟复杂的虚拟世界。 但并不是每个创作者都有时间和资源来为他们绘制的每个对象创建3D模型。要渲染陈列室汽车或建筑物街道,捕获所需数量的多视图图像的成本可能高得令人望而却步。 在这方面,训练有素的GANverse3D应用程序可用于组合标准图像汽车、建筑物,甚至是一匹马都被转换成可以在Omniverse中定制和动画化的3D图形。 为了重建KITT,研究人员简单地向训练模型提供汽车图像,并让GANverse3D预测相应的3D纹理网格,以及车辆的不同部件,如车轮和前灯。然后,他们使用NVIDIAOmniverse套件和NVIDIAPhysX工具将预测的纹理转换为高质量材质,赋予KITT更逼真的外观和感觉,并将其置于动态驾驶序列中。 “Omniverse赋予研究人员权力将激动人心的前沿研究直接带给创作者和最终用户。NVIDIA的深度学习工程师Jean-FrancoisLafleche说。“作为Omniverse的扩展,GANverse3D将帮助艺术家为游戏开发、城市规划甚至训练新的机器学习模型创造更丰富的虚拟世界。”” GANsdrivedimensionalshifts 因为很少有真实的数据集从不同的角度捕捉同一个物体,所以大多数将图像从2D转换为3D的AI工具都使用像ShapeNet这样的合成3D数据集 来获得多视图来自真实世界数据的图像,例如在线公开的汽车图像,NVIDIA研究人员转向GAN模型,修改他们的神经网络层,并将它们变成数据生成器。 团队发现只训练前4层神经网络和冻结剩余12层的参数允许GAN从不同角度渲染同一物体的图像。 保持前4层参数不变,其他12层可变神经网络可以根据相同的角度生成不同的图像。通过手动分配标准角度并拍摄特定高度和距离的车辆照片,研究人员可以从单个2D图像快速生成多视图数据集。 最终模型,在55,000个由GAN生成的汽车图像上训练,优于在流行的Pascal3D数据集上训练的逆图网络。
