Diffusion模型的最新进展,在众多生成任务中树立了令人瞩目的里程碑。DALL·E2、Imagen、StableDiffusion(SD)等引人注目的作品引起了学术界和工业界的极大兴趣。然而,尽管这些模型表现惊人,但它们基本上都专注于某一类任务,例如从给定的文本生成图像,而对于不同类型的任务,它们往往需要单独训练或重建新模型。那么能否在前人的基础上打造一个“全方位”的Diffusion来实现AIGC模型的统一呢?一些人正在朝这个方向努力探索,并且已经取得了进展。这个来自伊利诺伊大学香槟分校和德克萨斯大学奥斯汀分校的联合团队试图将现有的单流Diffusion扩展为一个名为VersatileDiffusion(VD)的多流网络,这是第一个统一的多流A多模式扩散框架,迈向通用生成人工智能的一步。论文地址:https://arxiv.org/abs/2211.08332VersatileDiffusion,除了正常的文本生成图像功能外,还可以输入图像生成相似图像,输入图像生成文本,输入文本生成相似文本,图像语义解耦编辑,输入图像和文本生成视频,根据潜在空间编辑图像内容等,未来版本还将支持语音、音乐、视频和3D等更多模式。根据该论文,已经证明VD及其底层框架具有以下优点:a)可以以具有竞争力的高质量处理所有子任务。b)支持新的扩展和应用,例如图形风格和语义分离、图文双导生成等。c)通过这些实验和应用,为生成的输出提供更丰富的语义洞察。在训练数据集方面,VD使用带有自定义数据过滤器的Laion2B-en作为主要数据集。第一次探索VD的一个令人兴奋的发现是,它可以在没有进一步监督的情况下从语义上增强或减少图像风格。这种现象促使作者探索一个全新的领域,在这个领域中,风格和语义的分离可以发生在具有任意风格和任意内容的图像上。作者声明他们是第一个探索的团队:a)没有领域规范的自然图像的语义和风格解释;b)扩散模型潜在空间的语义和风格分解。在下图中,作者首先生成输入图像的变体,然后以语义(左)或风格(右)为重点对其进行操作。由于VD既支持图文转图,也支持图文转图,因此作者团队首次尝试从文字提示的角度编辑图片,方法是:a)图文转图,b)编辑文字,c)转图文字背影。在实验中,作者从图像中删除描述性内容,然后使用这种图像-文本-图像(I2T2I)范例添加新内容。与需要输入对象位置的绘画或其他图像编辑方法不同,VD的I2T2I不需要遮罩,因为它可以根据指示自动定位和替换对象。然而,I2T2I的输出图像与输入图像像素不一致,这是由图像到文本的语义细化和文本到图像的内容创建造成的。在下面的显示中,输入图像首先被翻译成提示,然后用减法(红色框)和加法(绿色框)编辑提示。最后,编辑后的提示被翻译成图像。此外,他们也是第一个探索基于给定文本生成相似文本的团队。网络框架具体来说,所提出的VD框架是一个多流网络,具有各种类型的数据作为输入和上下文。VD多流多模态扩散框架继承了LDM/SD的优点,具有可解释的潜在空间、模态结构和低计算成本。VD可以与多个流联合训练,每个流代表一个跨模态的任务。它的核心设计是扩散器网络中的分组、共享和交换协议,使框架适应所有支持的任务和其他任务。扩散器分为三组:全局层、数据层和上下文层。全局层是时间嵌入层,数据层是残差块,上下文层是交叉注意力。该分组对应于层的功能。当处理多个任务时,全局层在所有任务之间共享。数据层和上下文层包含多个数据流。每个数据流都可以根据当前数据和上下文类型共享或交换。例如,在处理文本图像请求时,diffuser使用图像数据层和文本上下文层。在处理图像变异任务时,会用到图像数据层和图像上下文层。单个VD进程包含一个VAE、一个扩散器和一个上下文编码器,并在一种数据类型(如图像)和上下文类型(如文本)下处理一个任务(如文本到图像的转换)。VersatileDiffusion的多流结构如下图所示:在VersatileDiffusion的基础上,研究人员进一步提出了通用的多流多模态框架,包括VAE、contextencoder和三层(即global、data和context)扩散层)。Diffuser:VD使用广泛采用的cross-attentionUNet作为diffusernetwork的主要架构,将层分为globallayer、datalayer和contextlayer。其中数据层和上下文层有两个数据流,分别支持图片和文本。对于图像数据流,遵循LDM并使用残差块(ResBlock),空间维度逐渐减小,通道数逐渐增加。对于文本数据流,使用新的全连接残差块(FCResBlock),将768维的文本潜在向量扩展为320*4个隐藏特征,并遵循类似的通道增加范式,然后使用GroupNorms、SiLU和skipconnections,只是像一个普通的ResBlock。如上图所示,FCResBlock包含两组全连接层(FC)、groupnormalization(GN)和sigmoid线性单元(SiLU)。x是输入文本潜在代码,t是输入时间嵌入,hi是中间特征。对于上下文组,图像和上下文流都采用交叉注意层,其中内容嵌入通过投影层、点积和sigmoid操作数据特征。变分自编码器(VAE):VD使用之前的潜在扩散模型(LatentDiffusionModel,LDM)自编码器-KL作为图像数据VAE,Optimus作为文本数据VAE。Optimus由一个BERT文本编码器和一个GPT2文本解码器组成,可以将句子双向转换为768维正态分布的潜在向量。同时,Optimus还通过其可重构和可解释的文本潜在空间显示出令人满意的VAE特性。因此选择Optimus作为文本VAE,因为它非常适合多流多模式框架的先决条件。上下文编码器:VD使用CLIP文本和图像编码器作为上下文编码器。与仅使用原始文本嵌入作为上下文输入的LDM和SD不同,VD使用归一化和投影嵌入来最小化文本和图像的CLIP对比度损失。实验表明,上下文类型之间更紧密的嵌入空间有助于模型快速收敛并表现更好。在DALLE2中也可以得出类似的结论,它使用额外的投影层微调文本到图像模型,以最小化图像变化的文本和图像嵌入之间的差异。Performance作者使用早期的单任务模型作为基线模型,并将VD的结果与这些基线进行比较。其中,SDv1.4作为texttoimage的baseline模型,image-variation使用SD-variation,image-text使用BLIP。同时,作者还对不同的VD模型进行了定性比较,其中VDDC和VD-official用于文本到图像,三种模型均用于图像变体。SD和VD的图像样本是使用受控随机种子生成的,以进行更好的质量检查。文本到图像的性能尽管DALLE2和Imagen在这些任务上也达到了SOTA,但作者跳过了对它们的比较,因为没有公开可用的代码或训练细节。结果表明,多进程结构和多任务训练可以帮助VD捕获上下文语义并更精确地生成输出,并出色地完成所有子任务。Image-VariationPerformance此外,VD生成的图像标注还包含一些创意词。相比之下,BLIP的生成时间很短,缺乏细节描述。Image-to-textperformanceeffectsdemonstratedVinsengraphimagevariantsSemantics-focusedimagevariantsDual-bootSummary作者介绍了VersatileDiffusion(VD),这是一种多流多模式扩散网络,可在统一模型中解决文本、图像和变体。在VD的基础上,作者进一步介绍了一个通用的多流多模式框架,它可以涉及新的任务和领域。通过实验,作者发现VD可以在所有支持的任务上产生高质量的输出,其中VD的文本到图像和图像到变体的结果更好地捕捉上下文中的语义,并且VD的图像到文本的结果具有创造性和说明性的。鉴于VD的多流和多模态特性,作者介绍了新的扩展和应用程序,这些扩展和应用程序可能会进一步使从事该技术的下游用户受益。团队介绍伊利诺伊大学香槟分校IFP团队由黄旭涛教授于1980年代创立,最初是贝克曼先进科学技术研究所的图像形成与处理组。多年来,IFP一直致力于超越图像的研究与创新,包括图像与视频编码、多模态人机交互、多媒体标注与搜索、计算机视觉与模式识别、机器学习、大数据、深度学习与高性能计算等。计算。IFP目前的研究方向是通过大数据、深度学习和高性能计算的协同结合来解决多模态信息处理问题。此外,IFP在AI领域的顶级会议上获得了多篇最佳论文,并在包括首届NISTTrecVID、首届ImageNetChallenge、首届AICityChallenge在内的多项国际竞赛中获奖。有趣的是,自1960年代黄教授开始在麻省理工学院任教以来,IFP小组的“成员”甚至包括朋友、学生、学生的学生、学生的学生,甚至学生的学生的学生。
