本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。有这样一个模型。一句话就可以生成视频:不仅可以做到零样本,而且性能可以达到SOTA。它的名字叫“女娲”(Nüwa)。“女娲、女娲、神通”,顾名思义,一句话生成视频只是该模型的一项技能。此外,一句话生成图片,素描生成图像和视频,图像补全,视频预测,图像编辑,视频编辑——总共八个视觉任务,它实际上可以处理所有这些任务。他是不折不扣的“全能选手”。它是微软亚洲研究院与北京大学联合打造的多模态预训练模型,在首届微软峰会上亮相。目前,它已经在推特上“小火”。八项全能“女娲”一个人也不差,那么这位全能选手的表现如何呢?直接和SOTA模型对比,看看“她”在各种任务上的表现如何。在文中生成的图像中,不得不说,虽然“女娲”的FID-0分数不如XMC-GAN,但在实际效果上,“女娲”生成的图像可视性更好肉眼可见,清晰逼真。从文字到视频,《女娲》各项指标均获得第一名。从一帧一帧的画面来看,差距是显而易见的。在视频预测中,所有模型都使用64x64的分辨率,Cond。表示预测的帧数。即使只有1帧,《女娲》也将FVD评分从94±2降到了86.9。在将草图转为图像时,与SOTA模型相比,“女娲”生成的卡车更加逼真。在零样本图像补全任务中,“女娲”有了更丰富的“想象力”。直接效果:另外,它的另一个优势就是推理速度,差不多50秒就可以生成一幅图像;而PaintByWord在推理过程中需要额外的训练,大约需要300秒才能收敛。草图生成视频和文本引导视频编辑任务在本研究中首次提出,目前尚无可比对象。直接效果:你看,像上面那些只用色块勾勒轮廓的视频速写,“女娲”之手就可以生成对应的视频了。而输入一段潜水视频,“女娲”还能让潜水员浮出水面,继续潜水,甚至在文字的指引下“游”上天空。可以说,“女娲”不仅技能多,而且在任何一个单品上都做得不差。如何实现?这样的“女娲”是如何做到不管操作的对象是图片还是视频,无论是合成新的还是改造现有素材的?其实并不难。将文本、图像和视频分别视为一维、二维和三维数据,对应于使用它们作为输入的三个编码器。此外,还预训练了用于处理图像和视频数据的3D解码器。两者结合可以获得上述各种能力。其中,对于图像补全、视频预测以及图像和视频编辑任务,输入图像或视频的一部分直接馈送到解码器。encoder和decoder都是基于3DNearbyself-attentionmechanism(3DNA),可以同时考虑空间轴和时间轴的局部特征。定义如下:W表示可学习权重,X和C分别表示文本、图像和视频数据的3D表示:其中h和w表示空间轴上的token个数,s表示空间轴上的token个数时间轴(text默认为1),d表示每个token的维度。如果C=X,3DNA代表self-attentiontotargetX;如果C≠X,3DNA表示在条件C下对目标X的交叉注意力。这种机制不仅降低了模型的计算复杂度,还提高了生成结果的质量。此外,该模型还使用VQ-GAN代替VQ-VAE进行视觉标记化,这也使得生成效果更好。团队引进博士吴晨飞。毕业于北京邮电大学,现就职于微软亚洲研究院。合著者梁健,来自北京大学。其余作者包括微软亚洲研究院高级研究员季磊、首席研究员杨帆、联合首席科学家姜大新和北京大学副教授方跃建。通讯作者为微软亚洲研究院高级研究员、研究经理段楠。论文地址:https://arxiv.org/abs/2111.12417
