当前位置: 首页 > 科技观察

一句话生成视频AI炸了!Meta最新SOTA模型惊爆网友

时间:2023-03-12 23:03:25 科技观察

我给你发个短消息,让你做视频,你做得到吗?梅塔说,我可以。您没听错:使用AI,您也可以成为电影制作人!最近,Meta推出了一个新的AI模型,名字非常直白:Make-A-Video。这个模型有多强大?一句话,就实现了“三马奔腾”的场景。连乐存都说,该来的总会来。视觉效果很震撼,直接看效果吧。两只袋鼠在厨房忙着做饭(是否可以吃)特写:艺术家在画布上描绘大雨中行走的两人世界(步伐均匀)马在喝水芭蕾舞演员女孩在摩天大楼里跳舞美丽的夏日热带海滩上,一只金毛在吃冰淇淋(爪子进化了)猫主人拿着遥控器看电视(爪子进化了)一只泰迪熊画了一张自画像意外却又在情理之中,狗拿冰淇淋的“手”、拿着遥控器的猫、会画画的泰迪熊,都像人一样“进化”了!(战术背)当然,Make-A-Video不仅可以将文字转成视频,还可以将静态图片转成Gif。Input:output:input:output:(亮的好像有点格格不入)2张静态图片转成GIF,输入陨石图output:还有,把视频转成视频?输入:输出:输入:输出:技术原理今天,Meta发布了其最新研究MAKE-A-VIDEO:没有文本-视频数据的文本到视频生成。论文地址:https://makeavedio.studio/Make-A-Video.pdf在这个模型出现之前,我们已经有了StableDiffusion。聪明的科学家们已经让人工智能从一句话中生成图像,他们接下来会做什么?显然,要生成视频。一条穿着红色斗篷的超级英雄狗在天空中飞翔的视频比图像更难生成。我们不仅需要生成同一主题和场景的多个帧,还必须使它们在时间上连贯。这增加了图像生成任务的复杂性——我们不能简单地使用DALLE生成60张图像,然后将它们拼接成视频。它的效果会很差而且不真实。因此,我们需要一个能够更强大地理解世界的模型,并让它根据这种理解生成一系列连贯的图像。只有这样图像才能无缝地融合在一起。也就是说,我们的诉求是模拟一个世界,然后模拟它的记录。怎么做?按照之前的想法,研究人员会使用大量的文本-视频对来训练模型,但在这种情况下,这种做法并不现实。因为这些数据很难获得,而且训练成本非常昂贵。于是,研究人员脑洞大开,采用了新的方法。他们选择开发一个文本到图像的模型,然后将其应用到视频中。无独有偶,前段时间Meta开发了这样一个从文字到图片的模型Make-A-Scene。Make-A-Scene方法概述这个模型源于Meta对推进创意表达的渴望,将这种文本到图像的趋势与以前的草图到图像模型相结合,导致文本和草图条件图像生成之间的美妙融合.这意味着我们可以快速画出一只猫并写下我们想要的图像。在草图和文字的引导下,该模型将在几秒钟内生成我们想要的完美插图。您可以将这种多模态生成AI方法视为对生成具有更多控制的Dall-E模型,因为它还可以将快速草图作为输入。之所以称为多模态,是因为它可以将多种模态作为输入,例如文本和图像。相比之下,Dall-E只能从文本生成图像。为了生成视频,需要加入时间维度,因此研究人员在Make-A-Scene模型中加入了时空管道。添加时间维度后,模型生成16张低分辨率图像,而不是仅仅一张图像,以创建一个连贯的短视频。这种方法其实和text-to-image模型类似,不同的是它在常规的二维卷积的基础上增加了一个一维卷积。通过简单地添加一维卷积,研究人员能够在添加时间维度的同时保持预训练的二维卷积不变。然后,研究人员能够从头开始训练,重用Make-A-Scene图像模型的大部分代码和参数。同时,研究人员还希望使用文本输入来指导模型,这将与使用CLIP嵌入的图像模型非常相似。在这种情况下,研究人员在混合文本特征和图像特征时加入空间维度,方法同上:保留Make-A-Scene模型中的attention模块,并添加一个一维的attentionmodulefortime——复制粘贴图像生成器模型,重复多一维的生成模块,得到16个初始帧。但是仅仅依靠这16个初始帧,还不能生成视频。研究人员需要从这16个主帧制作高清视频。他们的方法是访问之前和未来的帧,并在时间和空间维度上对它们进行迭代插值。这样,在这16个初始帧之间,他们根据前后帧生成新的更大的帧,从而使运动变得连贯,使整个视频变得流畅。这是通过帧插值网络完成的,该网络获取现有图像并填充空白,生成中间信息。在空间维度上,它会做同样的事情:放大图像,填补像素空隙,让图像更高清。总而言之,为了生成视频,研究人员对文本到图像模型进行了微调。他们采用了一个已经训练过的强大模型,对其进行了调整和训练,并将其适应了视频。由于添加了空间和时间模块,只需使模型适应这些新数据即可节省大量成本,而无需重新训练。这种再训练使用无标签视频,只需要教模型理解视频和视频帧的一致性,这样更容易构建数据集。最后,研究人员再次使用图像优化模型,增加空间分辨率并使用帧插值组件添加更多帧来平滑视频。当然,目前的Make-A-Video结果还是有缺点的,就像text-to-image模型一样。但是我们都知道人工智能领域的进步有多快。如果想了解更多,可以参考链接中MetaAI的论文。社区也在开发PyTorch实现,如果你想自己实现,敬请期待。作者介绍,许多中国研究人员参与了这篇论文:殷熙、安杰、张松阳、胡其元。YinXi,FAIR研究科学家。他之前曾在Microsoft担任MicrosoftCloud和AI的高级应用科学家。他获得了博士学位。密歇根州立大学计算机科学与工程系学士,2013年毕业于武汉大学电气工程专业,获学士学位。主要研究领域为多模态理解、大规模目标检测、人脸推理等。罗切斯特大学计算机科学系博士生。师从RogerBo教授。此前,他分别于2016年和2019年获得北京大学学士和硕士学位。研究兴趣包括计算机视觉、深度生成模型和AI+艺术。作为实习生参与了Make-A-Video研究。张松阳是罗切斯特大学计算机科学系的博士生,师从罗杰波教授。获东南大学学士学位,浙江大学硕士学位。研究兴趣包括自然语言矩定位、无监督语法归纳、基于骨骼的动作识别等。作为实习生参与了Make-A-Video研究。QiyuanHu,当时是FAIR的AIResident,致力于增强人类创造力的多模态生成模型。她拥有芝加哥大学的医学物理学博士学位,并从事人工智能辅助医学图像分析方面的工作。现在在TempusLabs担任机器学习科学家。网友大为震惊前段时间,谷歌等各大厂商都发布了自己的文字转图片模型,比如Parti等。有些人甚至认为文本到视频的生成模型还有一段时间了。没想到这次Meta掉出了重磅炸弹。其实今天还有一个text-to-video的生成模型Phenaki,已经投稿到ICLR2023,由于还处于盲审阶段,作者所在机构还不得而知。网友纷纷表示,从DALLE到StableDiffuson再到Make-A-Video,一切来得太快了。