图像和视频等视觉数据的生成是机器学习和计算机视觉领域的重要研究课题之一。近年来,英伟达提出了SPADE、MUNIT等多种图像视频合成模型。近日,Nvidia开源了一个新的PyTorch库“Imaginaire”,该库共包含了9种由Nvidia开发的图像和视频合成方法。项目地址:https://github.com/NVlabs/imaginaire九种方法分别是:有监督的图像到图像的转换1、pix2pixHD2、SPADE/GauGAN无监督的图像到图像的转换1、UNIT2、MUNIT3、FUNIT4、COCO-FUNITvideo-to-videoconversion1,vid2vid2,fs-vid2vid3,wc-vid2vidpix2pixHD《pix2pixHD》是pix2pix的升级版,具有高分辨率图像和语义处理功能,主要解决深度图像合成编辑中的质量和分辨率问题。?项目主页:https://tcwang0509.github.io/pix2pixHD/?论文链接:https://arxiv.org/pdf/1711.11585.pdf在这篇论文中,来自NVIDIA和加州大学伯克利分校的研究人员提出了一种合成高分辨率的方法来自使用条件GAN的语义标签地图的逼真图像。此前,conditionalGAN已被广泛使用,但生成的结果分辨率低,与现实相去甚远。因此,研究人员使用了一种新的对抗性损失、多尺度生成器和鉴别器架构来生成2048x1024的结果。此外,研究人员还用两个额外的功能扩展了框架。首先,纳入对象实例分割信息,实现删除/添加对象、更改对象类别等操作;其次,提出了一种使用相同输入生成多个结果的方法,允许用户编辑对象外观。这篇论文被CVPR2018录用。SPADE/GauGAN在GTC2019上,NVIDIA展示了一个交互式应用程序“GauGAN”。它可以轻松地将粗糙的涂鸦变成令人惊叹的逼真杰作,看起来像一个真正的摄影师。GauGAN应用中使用的主要技术是Nvidia的SPADE。项目主页:https://nvlabs.github.io/SPADE/论文地址:https://arxiv.org/pdf/1903.07291.pdf在该论文中,来自UCBerkeley、NVIDIA、MITCSALL的研究人员提出了一种空间自适应归一化给定输入的语义布局,实现简单有效的逼真图像合成层的方法。以前的方法直接将语义布局作为深度网络的输入,然后通过卷积层、归一化层和非线性层进行处理。实验表明,这种方法不是最优的,因为规范化层往往会“洗掉”语义信息。为了解决这个问题,研究人员建议使用输入布局通过空间自适应学习变换来调整归一化层中的激活函数。在几个具有挑战性的数据集上进行的实验表明,所提出的方法在视觉保真度和输入布局对齐方面优于现有方法。最后,该模型允许用户控制合成图像的语义和风格。该论文被CVPR2019录用为Oralpaper。UNIT项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/unit论文地址:https://arxiv.org/abs/1703.00848UNIT(Unsupervisedimage-to-imagetranslation)旨在通过使用来自单个域中边缘分布的图像来学习不同域中图像的联合分布。由于需要一组无限的联合分布才能达到给定的边际分布,因此如果没有其他假设,就无法从边际分布中推断出联合分布。为了解决这个问题,研究人员假设了一个共享的潜在空间,并提出了一种基于耦合GAN的无监督图像到图像转换框架。MUNIT无监督图像到图像的转换是计算机视觉领域中一个重要且具有挑战性的问题:给定源域(sourcedomain)中的图像,需要在没有任何成对图像数据的情况下学习目标域(targetdomain).域)在其相应图像的条件分布中。尽管条件分布是多模态的,但以前的方法引入了过于简化的假设作为确定性的一对一映射,因此无法在特定的源域图像中生成不同的输出结果。项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/munit论文地址:https://arxiv.org/abs/1804.04732在这篇论文中,来自康奈尔大学和NVIDIA的研究作者提出了用于多模态无监督图像到图像转换的MUNT框架。研究人员假设图像表示可以分解为域不变的内容代码(contentcode)和可以描述域特定属性的样式代码(stylecode)。为了将一幅图像转换到另一个领域,研究人员重组了:1.原始图像的内容代码,2.从目标域中随机提取的某种风格代码,分析了MUNT框架,并建立了相应的理论结果。大量实验证明了MUNT优于其他SOTA方法。最后,通过引入样本样式图像,用户可以使用MUNT来控制转换的输出样式。FUNIT项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/funit论文地址:https://arxiv.org/abs/1905.01723虽然之前的无监督图像到图像转换算法失败了在许多方面都非常成功,尤其是对于跨图像类别的复杂外观转移,但基于先验知识从少量样本的新类别中进行泛化的能力仍然无法实现。具体来说,如果模型需要对某些类别进行图像翻译,那么这些算法需要大量所有类别的图像作为训练集。也就是说,它们不支持少样本泛化。总的来说,有两个局限性:首先,这些方法通常需要在训练时看到大量目标类别的图像;其次,一个转换任务的训练模型不能在测试时应用于另一个转换任务。在这篇论文中,NVIDIA的研究人员提出了一种Few-shotUnsupervisedImage-to-ImageTranslation(FUNIT)框架。该框架旨在学习一种新颖的图像到图像转换模型,该模型将源类图像映射到具有少量目标类图像的目标类图像。也就是说,模型在训练阶段从未见过目标类的图像,但在测试时被要求生成一些目标类的图像。COCO-FUNIT项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit论文地址:https://nvlabs.github.io/COCO-FUNIT/paper.pdfCOCO-FUNIT上图图像到图像转换模型在模拟不可见域的外观时努力保持输入图像的结构,这被称为内容丢失问题。当输入图像和示例图像中物体的姿势存在较大差异时,此问题尤为严重。为了解决这个问题,研究人员提出了一种新的few-shot图像变换模型——COCO-FUNIT。vid2vid2018年,Nvidia和MITCSAIL开发了直接视频到视频的转换系统。该系统不仅可以使用语义分割遮罩视频合成2K分辨率的真实街景视频,还可以使用素描视频合成真人视频,还可以使用手势图合成现场舞蹈视频。此外,在语义分割掩码输入下,系统可以通过简单地改变掩码颜色,直接将街景中的树木转换为建筑物。项目主页:https://tcwang0509.github.io/vid2vid/论文地址:https://arxiv.org/abs/1808.06601在这篇论文中,来自NVIDIA和MIT的研究人员提出了一种新型的生成对抗AVideo-to-Web框架中的视频合成方法。通过精心设计生成器和鉴别器架构,结合时空对抗目标函数,研究人员生成了多种输入视频格式的高分辨率、时间相干的逼真视频,其中各种形式的输入包括分割蒙版、草图和姿势图。在多个benchmark上的实验结果表明,本文方法优于strongbaselines。该模型可以合成长达30秒的2K分辨率街景视频,明显优于目前最好的视频合成方法。优势。研究人员将该方法应用于未来视频预测,并优于其他方法。这篇论文被NeurIPS2018录用。few-shotvid2vid“vid2vid”旨在将输入的语义视频(例如人体姿势或分割掩码)转换为逼真的输出视频,但它仍然存在以下两个局限性:首先,现有方法非常数据-密集的。训练过程中需要大量目标人物或场景的图像;其次,学习模型的泛化能力不足。pose-to-humanvid2vid模型只能合成训练集中单个人的pose,不能泛化到不在训练集中的其他人。2019年,Nvidia推出了全新的“few-shotvid2vid”框架,可以仅用少量目标样本图像合成以前未见过的目标或场景的视频。可用于舞蹈、头部特写、街景等场景。获得现实的结果。项目主页:https://nvlabs.github.io/few-shot-vid2vid/?论文地址:https://arxiv.org/pdf/1910.12713.pdf在这篇论文中,来自Nvidia的研究人员提出了一种afew-shotvid2vid该框架通过在测试时利用目标对象的少量示例图像来学习合成以前未见过的对象或场景的视频。few-shotvid2vid模型在利用注意力机制的新型网络权重生成模块的帮助下实现了few-shot情况下的泛化。研究人员进行了大量的实验验证,并使用人体舞蹈、头部特写、街景等大型视频数据集与强基准进行对比。实验结果表明,Nvidia提出的few-shotvid2vid框架可以有效解决现有方法的局限性。这篇论文被NeurIPS2019录用。WorldConsistentvid2vid《WorldConsistentvid2vid》是Nvidia在2020年7月推出的一种视频到视频的合成方法。vid2vid视频编码方法能够在短时间内实现时间一致性,但是不要长时间。这是由于对3D世界的渲染方式缺乏了解,每一帧只能根据过去的几帧生成。项目主页:https://nvlabs.github.io/wc-vid2vid/论文地址:https://arxiv.org/pdf/2007.08509.pdf在这篇论文中,Nvidia的研究人员介绍了一种新的视频渲染框架,使得高效在渲染过程中使用所有过去生成的帧来改进后续视频的合成。研究人员使用“引导图像”并进一步提出了一种新的神经网络结构来利用存储在引导图像中的信息。一系列实验结果表明,该方法具有良好的性能,输出的视频在3D世界渲染中具有一致性。
