厌倦了图像生成,Google转向了文本→视频生成,同时挑战分辨率和长度的两大强大武器Battlefield:Text-to-Video。上周,Meta发布了一款可以生成高质量短视频的工具——Make-A-Video。这个工具生成的视频非常有想象力。当然,谷歌也不甘示弱。刚才,该公司的CEOSundarPichai亲自分享了他们在该领域的最新成果:两款文本转视频工具——ImagenVideo和Phenaki。前者主打视频质量,后者主要挑战视频长度。可以说各有千秋。下面洗碗的泰迪熊是用ImagenVideo生成的。可以看出在一定程度上保证了画面的清晰度和连续性。ImagenVideo:给定文本提示,生成高清视频生成建模在最近的文本到图像AI系统(例如DALL-E2、Imagen、Parti、CogView和LatentDiffusion)中取得了重大进展。特别是,扩散模型在密度估计、文本到语音、图像到图像、文本到图像和3D合成等几个生成建模任务中取得了巨大成功。Google想要做的是从文本生成视频。以前关于视频生成的工作主要集中在具有自回归模型的受限数据集、具有自回归先验的潜在变量模型以及最近的非自回归潜在变量方法。扩散模型还展示了出色的中等分辨率视频生成能力。基于此,谷歌推出了ImagenVideo,一个基于级联视频扩散模型的文本条件视频生成系统。给定文本提示,ImagenVideo可以通过由冻结的T5文本编码器、基础视频生成模型和级联时空视频超分辨率模型组成的系统生成高清视频。论文地址:https://imagen.research.google/video/paper.pdf在论文中,谷歌详细描述了如何将系统扩展到高清文本到视频模型,包括全卷积空间的选择-timeatcertainresolutions设计决策,例如超分辨率模型和扩散模型的v参数化选择。谷歌还成功地将之前关于基于扩散的图像生成的工作迁移到了视频生成设置中。Google发现ImagenVideo能够将之前工作生成的24fps64帧128×128视频升级为128帧1280×768高清视频。此外,ImagenVideo还具有高度可控性和世界知识性,能够生成艺术风格多样的视频和文字动画,并具有3D对象理解能力。欣赏一下ImagenVideo生成的一些视频,比如PandaDriving:AWoodenShipTravelinginSpace:更多生成的视频可以参考:https://imagen.research.google/video/方法和实验总的来说,谷歌的视频生成框架是七个子视频扩散模型的级联,分别执行文本条件视频生成、空间超分辨率和时间超分辨率。通过整个级联,ImagenVideo能够以每秒24帧的速度生成128帧1280×768高清视频(约1.26亿像素)。同时,在渐进蒸馏的帮助下,ImagenVideo可以在每个子模型中仅使用八个扩散步骤来生成高质量的视频。这将视频生成时间加快了大约18倍。下面的图6显示了ImagenVideo的整个级联管道,包括1个冻结文本编码器、1个基本视频扩散模型以及3个空间超分辨率(SSR)和3个时间超分辨率(TSR)模型。这七个视频扩散模型总共有116亿个参数。在生成过程中,SSR模型增加了所有输入帧的空间分辨率,而TSR模型通过填充输入帧之间的中间帧来增加时间分辨率。所有模型同时生成一个完整的帧块,这样SSR模型就不会出现明显的伪影。ImagenVideo建立在视频U-Net架构之上,如下图7所示。在实验中,ImagenVideo在公开可用的LAION-400M图像文本数据集、1400万个视频文本对和6000万个图像文本对上进行了训练。因此,如上所述,ImagenVideo不仅能够生成高清视频,而且还具有一些非结构化生成模型完全从数据中学习所没有的独特功能。下面的图8展示了ImagenVideo能够生成具有从图像信息中学习的艺术风格的视频,例如梵高绘画或水彩风格的视频。下面的图9展示了ImagenVideo理解3D结构的能力,它能够生成旋转对象的视频,同时保留对象的一般结构。下面的图10演示了ImagenVideo可以可靠地生成各种动画样式的文本,其中一些很难使用传统工具生成。更多实验细节请参考原论文。Phenaki:你讲故事,我画画。我们知道,虽然视频本质上是一系列图像,但要生成连贯的长视频并不容易,因为可用于此任务的高质量数据非常少。而且,任务本身的计算要求非常大。更复杂的是,用于图像生成的短文本提示通常不足以提供视频的完整描述,视频需要的是一系列提示或一个故事。理想情况下,视频生成模型必须能够生成任意长度的视频,并且能够根据特定时间t提示的变化调整生成的视频帧。只有具备这样的能力,模型生成的作品才能被称为“视频”而不是“运动图像”,并为艺术、设计和内容创作中的现实创意应用开辟道路。谷歌等机构的研究人员表示,“据我们所知,以前从未探索过基于故事的条件视频生成,这是第一篇朝着这一目标迈进的早期论文。”论文链接:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf项目链接:https://phenaki.github.io/#interactive由于没有基于故事的数据集可供学习,研究人员无法简单地依赖传统的深度学习方法(从数据中简单学习)来完成这些任务。所以他们专门为这个任务设计了一个模型。新的文本到视频模型称为Phenaki,使用文本到视频和文本到图像数据的联合训练。该模型能够:1.生成以开放域提示为条件的时间上连贯的多样化视频,即使提示是一个新颖的概念组合(参见下面的图3)。生成的视频可以长达几分钟,即使用于模型训练的视频只有1.4秒(每秒8帧)2.根据故事(即一系列提示)生成视频,如图下图1和图5:从下面的动画中,我们可以看到Phenaki生成的视频的连贯性和多样性:要实现这些功能,研究人员不能依赖现有的视频编码器,它们要么只能解码固定大小的视频,要么独立编码帧。为了解决这个问题,他们引入了一种新的编码器-解码器架构——C-ViViT。C-ViViT可以:利用视频中的时间冗余来提高每帧模型的重建质量,同时将视频标记的数量压缩40%或更多;允许在给定因果结构长度视频的情况下进行可变编码和解码。PHENAKI模型架构受到之前关于自回归文本到图像和文本到视频的研究的启发,Phenaki的设计主要由两部分组成(见下图2):编码器-解码器,将视频压缩成离散的嵌入(token)模型和将文本嵌入转换为视频标记的转换器模型。获得视频的压缩表示是从文本生成视频的主要挑战之一。以前的工作要么使用每帧图像编码器,例如VQ-GAN,要么使用固定长度的视频编码器,例如VideoVQVAE。前者允许生成任意长度的视频,但在实践中,视频必须很短,因为编码器无法及时压缩视频,并且令牌在连续帧中高度冗余。后者在令牌数量上更有效,但它不允许生成任意长度的视频。在Phenaki中,研究人员的目标是生成可变长度的视频,同时尽可能地压缩视频令牌的数量,以便在当前的计算资源限制内使用Transformer模型。为此,他们引入了C-ViViT,这是ViViT的一种因果变体,它对视频生成进行了额外的架构更改,可在时间和空间维度上压缩视频,同时保持时间自回归。此函数允许生成任意长度的自回归视频。为了获得文本嵌入,Phenaki还使用了预训练语言模型——T5X。有关详细信息,请参阅原始论文。
