最近,视觉合成任务备受关注。前几天,英伟达的GauGAN刚刚推出了2.0新版本,现在新的视觉合成模型女娲(Nuwa)也火了。与GauGAN相比,“女娲”的生成模式更加多样,不仅可以生成带有文字涂鸦的图像,还可以根据文字生成视频。随着VQ-VAE等离散化VAE方案的出现,高效、大规模的预训练逐渐应用于视觉合成任务,如DALL-E(图像)、GODIVA(视频)。尽管这些模型取得了巨大的成功,但它们仍然存在一些局限性——它们分别处理图像和视频并专注于生成其中之一,这限制了模型从图像和视频数据中获益。相比之下,“Nuwa”是一个统一的多模态预训练模型,在涉及图像和视频处理的8个下游视觉任务上具有出色的合成结果。论文地址:https://arxiv.org/pdf/2111.12417.pdfGitHub地址:https://github.com/microsoft/NUWA模型概述本研究提出了一个通用的3Dtransformer—encoder-decoder框架(如下图所示)图),它同时涵盖语言、图像和视频,可用于多种视觉合成任务。该框架由一个以文本或视觉草图作为输入的自适应编码器和一个由8个视觉合成任务共享的解码器组成。《女娲》的整体结构。该框架还包括一个3DNearbyAttention(3DNA)机制来考虑空间和时间上的局部特征。3DNA不仅降低了计算复杂度,还提高了生成结果的视觉质量。与几个强baseline相比,Nuwa在text-to-imagegeneration、text-to-videogeneration、videoprediction等方面都取得了SOTA的成绩。此外,“Nuwa”还展现了惊人的zero-shotlearning能力。《女娃》的8种跨模态合成模式分别是:文字转图片:涂鸦转图片:图片补全:根据文字编辑图片:文字转视频:视频预测:涂鸦转视频:根据文字编辑视频:实验结果的还通过多次实验评估了合成结果。首先,研究人员在三个数据集上对“女娲”进行了预训练:用于文本图像(T2I)生成的概念说明,包括2.9M文本图像对;MomentsinTimeforvideoprediction(V2V),包括727K视频;用于文本到视频(T2V)生成的VATEX数据集,包括241K文本视频对。Text-to-image(T2I)fine-tuningcomparedtoSOTAmethods:本研究比较了“Nuwa”在MSCOCO数据集上的性能,如表1和图3所示:在表1中,“Nuwa”明显优于CogView,其中FID-0为12.9,CLIPSIM为0.3429。虽然XMC-GAN的FID-0为9.3,比“女娲”要好,但“女娲”可以生成更逼真的图像,如图3所示。尤其是最后一个例子,“女娲”生成的男孩脸更清晰,男孩旁边的气球也很逼真。Text-to-Video(T2V)fine-tuning:本研究在Kinetics数据集上对Nuwa进行了评估,结果如表2和图4所示。在表2中,“Nuwa”在所有指标上都取得了最佳性能。在图4中,研究还展示了“女娲”强大的零镜头生成能力,可以生成以前没有见过的图像,比如:在游泳池里打高尔夫球,在海里跑步:视频预测(V2V)微调:该研究在BAIRRobotPushing数据集上将“女娲”与其他模型进行了比较,结果如表3所示:为了公平比较,所有模型均使用64×64分辨率。虽然只给出了一帧作为条件(Cond.),但《女娲》还是将SOTAFVD评分从94±2降到了86.9。Sketch-to-Image(S2I)fine-tuning:本研究在MSCOCOstuff上进行实验,如图5所示。与Taming-Transformers和SPADE相比,《女娲》生成的逼真汽车种类繁多,甚至反射巴士车窗清晰可见。图像补全(I2I)零镜头评价:给定塔的上半部分,相比驯服变形金刚模型,《女娲》可以生成更丰富的塔下部分想象,包括生成周围的建筑、湖泊、花卉、树木、山脉等Text-InstructedImageProcessing(TI2I)零样本评估:Nüwa展示了其强大的处理能力,可以在不改变图像其他部分的情况下生成高质量的文本一致结果。消融实验图5显示了多任务预训练对文本到视频(T2V)生成任务的有效性。该研究在具有挑战性的数据集MSR-VTT(具有自然描述和真实视频)上进行实验。“女娲”FID-vid为47.68,CLIPSIM为0.2439。图9显示了文本引导视频处理(TV2V)。第一行显示原始视频帧,潜水员正在潜水;第二行显示潜水员正游向水面;第三行表示潜水员可以游到海底,如果我们要生成让潜水员飞向天空的图片呢?“女娲”可以实现,从图中可以看出,潜水员像火箭一样飞上了天空。
