当前位置: 首页 > 科技观察

治愈噩梦级抠图Weizmann和Nvidia发布Text2LIVE,用自然语言来PS

时间:2023-03-18 11:34:53 科技观察

使用类似Photoshop的软件是创造性工作还是重复性工作?对于使用PS的人来说,抠图等重复性工作可能是一场噩梦,尤其是对于发丝、不规则图形、背景颜色彼此接近的情况。如果有一个AI模型,可以帮你剪图,还可以帮你做一些更换贴图、添加材质等工作,岂不是可以节省很多创作时间?一些专注于视觉效果(VFX)的从业者对图像和视频合成方面的新工作和创新非常感兴趣,但他们也感到受到威胁,担心人工智能的快速发展是否会取代他们。毕竟AI现在是从绘画到绘画。从生成视频来说,它几乎无所不能。例如,新手生成假视频需要大量的学习和操作时间。如果用deepfake的话,不需要任何门槛,效率也高很多。但好消息是,目前AI并不是万能的,一个模型只能在软件上做一点点工作;如果要将多个模型组装成一个Pipeline,则需要对其进行操作;对于更复杂的任务,则还需要人类的创造力。魏茨曼科学研究所和NVIDIA的研究人员提出了一种名为Text2Live的模型。用户只需输入自然语言文本作为命令,即可处理给定的图片和视频。模型的目标是以语义方式编辑现有对象的外观(如对象的纹理)或为场景添加视觉效果(如烟、火等)。论文链接:https://arxiv.org/pdf/2204.02491.pdfText2Live能够在不改变图像中不相关内容的情况下,通过复杂的半透明效果增强输入场景。比如对着模型说出咒语“smoke”或者“fire”,就可以在图片上合成相应的效果,非常真实;对着面包图片说“冰”,就可以把它变成冰镇面包,甚至是“奥利奥蛋糕”。》没问题;或者对视频说“给长颈鹿戴围巾”,它也能准确识别出长颈鹿的脖子,在每一帧都给它戴上围巾,还可以改变效果。灵感来源于强大的语义Vision-Language模型的表达能力,研究人员思考,为什么我们不能使用自然语言命令来生成图片呢?这可以让用户轻松直观地指定目标外观以及要编辑的对象和区域,并且开发的模型需要具有在给定文本提示的情况下识别本地语义编辑的能力。对于多模态,在4亿个文本图像对上学习的CLIP模型很容易获得,其巨大的视觉和文本空间丰富性已通过各种图像编辑方法得到证明!但是还有一个难点,就是要在所有真实世界的图像中用CLIP达到完美的表现并不容易。大多数现有方法将预训练生成器(例如GAN或扩散模型)与CLIP相结合。但是对于GAN,图像的域是有限的,需要将输入图像反转到GAN的潜在空间,这本身就是一项具有挑战性的任务。扩散模型在克服这些障碍的同时,面临着满足目标编辑和保持对原始内容的高保真度之间的权衡。但将这些方法扩展到视频并非易事。Text2LIVE采用不同的路线,建议从单个输入(图像或视频和文本提示)学习生成器。一个新问题出现了:如何在不使用外部生成先验的情况下引导生成器进行有意义的、高质量的图像编辑操作?Text2LIVE主要设计了两个关键部分来实现这个目标:1.模型包含了一种新颖的文本引导分层编辑(layeredediting),即模型不直接生成编辑后的图像,而是通过CompositeRGBAlayers(colorandopacity)在输入层之上以表示编辑。这也使模型能够通过新的目标函数来指导生成的编辑内容和本地化,包括直接应用于编辑层的文本驱动损失。例如,在前面的例子中,文字提示“smoke”不仅用于输出最终的编辑图像,还表达了编辑图层所代表的目标效果。2.该模型通过对输入图像和文本应用各种数据增强,在由不同图像文本训练实例组成的“内部数据集”上训练生成器。实验结果还表明,这种“内部学习方法”可以作为一种强大的正则化,能够生成高质量的复杂纹理和半透明效果。文本增强主要使用预定义的14个模板提示,可以提供CLIP向量的多样性。图像数据的管道由在单个输入图像和目标文本提示上训练的生成器组成。左边是生成内部数据集的过程,即由不同训练实例组成的内部(图像,文本)对和数据增强后得到的数据集。正确的测试是,生成器将图像作为输入,输出一个可编辑的RGBA层(颜色+透明度),根据输入进行合成,形成最终的编辑图像。生成器的优化函数是多个lossitem的总和,每个lossitem定义在CLIP空间中,包括主要目标Compositionloss,可以反映图像与目标文本提示的匹配程度;Screenloss,application在生成的编辑图层中,主要的技术是在纯绿色背景上合成一个噪声背景图像来判断抠图的准确性;结构损失保证替换后的纹理和显示效果能够保持原目标的空间分布和形状。除了图像,研究人员还将Text2LIVE扩展到文本引导的视频编辑。真实世界的视频通常包含复杂的对象和相机运动,包括关于场景的丰富信息。然而,除了简单地对图片的每一帧应用相同的操作之外,很难实现一致的视频编辑。因此,研究人员提出将视频分解成一组二维图集(atlases)。每个图集都可以看作是一个统一的二维图像,代表整个视频中的前景对象或背景。这种表示极大地简化了视频编辑的任务。应用于单个2D图集的编辑以一致的方式映射到整个视频。视频训练管道包括(a)一个预训练的固定分层神经图集模型,可以用作“视频渲染器”,包括一组二维图集,从像素到图集的映射函数,以及每个像素的前景/背景透明度值;(b)该框架训练一个生成器,该生成器将选定的离散图集IA作为输入并输出;(c)图集编辑层EA;(d)使用预训练映射网络M为每一帧渲染编辑后的图集;(e)在原始视频上合成。在实验的定量评估中,研究人员选择了如何评估人类感知,参与者会看到一张参考图像和一个目标编辑提示,以及两个备选方案。参与者必须选择“哪个图像更适合根据文本提示编辑参考图像”?实验数据包括82对(图像、文本),收集了12450个用户对图像编辑方式的判断。投票结果表明,Text2LIVE在很大程度上超过了所有基线模型。在视频实验中,参与者需要选择“质量更好、更能体现文字的视频”。实验数据包含19对(视频、文本)和2400个用户的判断结果。结果可以看出,Frames基线模型产生的时间轴结果不一致,而Atlas基线模型更一致,但在生成高质量纹理方面表现不佳,经常产生模糊的结果。