本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。Nvidia最新的AI工具再次让网友兴奋不已。“我等不及了!”一位网友看完演示视频后说。对于“手残党”来说,英伟达的EditGAN简直就是零基础的P图神器。在P-picture模式下,能够以高质量和精细的细节修改图像从未如此简单。比如让人像、雕塑“吸睛”:只要会上传图片,会画素描,就可以轻松画出图画。难怪这样一个“神奇”的工具会如此受网友欢迎。EditGAN甚至可以尽可能精细地修改车轮辐条的大小和方向:当然,真实照片不在话下,比如控制人眼的方向,头发的多少等:它也可以修改猫耳朵的大小:你只需要上传一张图片,然后程序生成一个语义分割草图,修改直接画在草图上。△在素描中加上牙齿部分,会让人发笑。EditGAN只会修改你想改变的部分,其他部分保持原样。和最近的GauGAN2一样,英伟达也为EditGAN开发了一个电脑软件:这个研究已经被NeurIPS2021录用了。这篇文章的第一部作品是来自多伦多大学的华裔博士生凌欢。他同时在VectorInstitute和NVIDIA做研究。第一个GAN驱动的图像编辑器研究人员表示,EditGAN是第一个GAN驱动的图像编辑框架,其主要特点是:1.提供非常高的精度编辑2.需要非常少的标注训练数据3.可以实时交互运行时间4允许直接合成多个编辑5适用于真实嵌入、GAN生成甚至域外图像首先,EditGAN使用StyleGAN2生成图像。StyleGAN2的工作流程是:获取一张图像,将其编码到一个潜在空间中,然后使用一个生成器将这个编码后的子空间转换成另一个图像。但问题是这个空间是多维的,很难将其可视化并确定这个子空间的哪一部分负责重建图像中的哪个特征。通常,需要巨大的标记数据集来了解模型中潜在空间的哪一部分控制哪些特征。另一方面,EditGAN通过仅从几个标记的数据集示例中学习来将分割与图像匹配,从而实现图像到图像的编辑。EditGAN保留完整的图像质量,同时提供前所未有的细节和自由度。更重要的是,EditGAN不仅知道潜在空间的哪一部分对应于控制,还能将它们映射到草图上。这样,我们就可以很方便地通过修改草图来修改图像。EditGAN基于DatasetGAN,结合了图像建模及其语义分割。EditGAN的关键思想是利用图像和像素级语言分割的联合分布。具体来说,将图像嵌入到GAN的潜在空间中,并根据分割编辑执行条件潜在代码优化。上图展示了EditGAN的训练过程:修改语义分割,优化sharedlatentcode,编辑区内与新分割一致,编辑区外RGB外观。相应的梯度通过共享生成器反向传播。对于摊销优化,作者在已实现编辑的潜在空间中找到了一个“编辑向量”。该框架允许学习任意数量的编辑向量,然后以实时速率直接应用于其他图像。P图工具即将发布。作者团队在NVIDIA内部GPU集群上使用V100进行底层StyleGAN2、编码器和分割分支的训练,以及嵌入和编辑的优化。该项目使用了约14,000GPU小时,其中约3,500GPU小时用于最终实验,其余用于研究项目前期的探索和测试。至于EditGAN运行,在V100上进行30(60)步优化需要11.4(18.9)秒。虽然不能训练,但是用训练好的模型生成P图还是可以的。此前,英伟达发布的Canvas集成了GauGAN2等最新成果,可以生成带有手绘草图的精美PS文件。也许Canvas很快就会整合EditGAN。好消息是Nvidia表示编码和编辑工具将很快可用。等不及要试一试了吗?论文地址:https://arxiv.org/abs/2111.03186补充材料:https://nv-tlabs.github.io/editGAN/editGAN_supp_compressed.pdf讲解视频:https://www.youtube.com/watch?v=bus4OGyMQec
