当前位置: 首页 > 科技观察

2D 图像变 3D,微软新 AI 框架或成游戏业福音

时间:2023-03-21 12:50:01 科技观察

2D图像变成3D,微软新的AI框架或将成为游戏行业的福音。在将2D图像转换为3D方面已经进行了多次尝试,包括Facebook和Nvidia等公司的AI研究实验室,或Threedy.AI等初创公司。近日,来自微软的一个研究团队也发表了一篇预印本论文,展示了其基于非结构化二维图像生成3D形状图像的能力。通常,训练这样的框架需要通过光栅化进行差分步渲染,因此该领域的研究人员过去的努力主要集中在开发自定义渲染模型上。然而,此类模型处理后的图像不会显得逼真自然,不适合生成游戏和图形行业的工业效果图。微软研究人员这次有了新的突破——在他们的论文中,他们详细介绍了一个框架,该框架使用了该领域首次使用的“可扩展”训练技术。研究人员指出,当在2D图像上进行训练时,该框架可以始终如一地生成比现有模型更好的3D形状,这对缺乏创建3D模型经验的视频游戏开发商、电子商务公司和动画公司非常感兴趣。堪称“福音”。具体来说,研究人员试图利用可以从显示数据生成图像的全功能工业渲染器。为此,研究人员训练了3D形状的生成模型,以渲染形状并生成与2D数据集分布相匹配的图像。生成器模型采用随机输入向量(表示数据集特征的值)并生成3D对象的连续体素表示(3D空间中网格上的值),然后将其馈送到不可微分的渲染中在使用它进行渲染之前,将现有渲染器处理和阈值化为离散值。也就是说,它是一种代理神经渲染器直接渲染由3D形状生成模型生成的连续体素网格的新方法。正如研究人员解释的那样,给定3D网格输入,需要对其进行训练以匹配现成渲染器的渲染输出。生成对抗网络(GANS)在生成2D图像数据方面取得了令人瞩目的成果,许多视觉应用程序(例如游戏)需要3D模型作为输入,而不仅仅是图像。但是,将现有的GAN模型直接扩展到3D需要访问3D训练数据。雷锋网注:上图为微软模型生成的3D蘑菇图像。在实验过程中,研究团队对上述生成器采用了3D卷积GAN架构(GAN是一种AI模型,生成器使用分布式采样从随机噪声中生成合成示例,并将这些示例与真实示例一起馈入鉴别器来自训练数据集的示例以尝试区分两者)。来自不同对象类别的图像可以基于3D模型生成的数据集和真实世界的数据集进行合成,并在整个训练过程中从不同角度进行渲染。研究人员还表示,他们的框架还从图像中提取光照和阴影信息,使其能够从每个训练样本中提取更有意义的数据,并以此为基础产生更好的结果。在对自然图像数据集进行训练后,该框架可以生成逼真的样本。此外,该框架还可以利用表面之间的曝光差异成功检测凹形物体的内部结构,从而准确捕获凹陷程度和空心空间。将颜色、材料和照明等信息纳入系统,未来,这些信息可以与更多“常规”的现实世界数据集一起使用。