当前位置: 首页 > 科技观察

视频也可以用扩散模型来生成了,效果很能打:新SOTA已达成

时间:2023-03-21 21:55:30 科技观察

视频也可以使用diffusion模型生成,效果非常好:新的SOTA实现了Diffusionmodels最近真的很火。OpenAI用它打败了霸榜多年的GAN,现在谷歌也纷纷效仿,提出了视频扩散模型。就像图像生成一样,它实际上在第一次尝试时就表现出了不错的性能。比如输入“fireworks”,就可以产生这样的效果:满屏烟花怒放,肉眼可以说是假的。为了让生成的视频更长、分辨率更高,作者还在这个扩散模型中引入了一种新的采样方式。最后,该模型在无条件视频生成任务上取得了新的最新技术水平。一起来看看吧。从图像扩散模型扩展这个扩散视频模型是从标准图像扩散模型UNet扩展而来的。UNet是一种神经网络架构,分为空间下采样通道和上采样通道,由残差连接。该网络由多层2D卷积残差块构成,每个块后跟一个空间注意块。它可以通过具有固定帧数的块和在空间和时间上分解的3DU-Net扩展为视频模型。具体:先将每个二维卷积改为三维卷积(space-only),比如将3x3卷积改为1x3x3卷积(第一轴(axis)索引视频帧,第二轴和第三轴索引空间高度和宽度)。每个空间注意力块中的注意力仍然集中在空间维度上。然后,在每个空间注意块之后,插入一个时间注意块;这个时间注意力块在第一个轴上执行注意力并将空间轴视为批处理轴。众所周知,像这样分解视频Transformer中的时空注意力,会使计算效率更高。因此,该模型也可以在视频和图像上进行联合训练,这种联合训练对于提高样本质量非常有帮助。此外,为了生成更长、更高分辨率的视频,作者还引入了一种新的调整技术:梯度法。它主要修改了模型的采样过程,使用基于梯度的优化来改善去噪数据的条件损失,并将模型自回归扩展到更多的时间步长和更高的分辨率。评估无条件和文本条件的生成对于无条件视频生成,训练和评估是在现有基准上进行的。该模型最终取得了最高的FID分数和IS分数,大大超越了之前的SOTA模型。对于文本条件下的视频生成,作者在空间分辨率为64x64px的1000万字幕视频的数据集上进行了训练;在此之前,视频生成模型使用各种GAN、VAE以及基于流的模型和自回归模型。所以这也是他们第一次报告从文本生成视频的扩散模型的结果。下图显示了没有分类器指导对模型生成质量的影响:与其他非扩散模型一致,添加指导增加了每个单独图像的保真度(右边是视频扩散模型,看它的图片更加真实清晰)。△图片是随机截取的视频帧最后,作者也验证了他们提出的梯度法在生成长视频时确实比之前的方法更加多样化,能够更好的保证生成的样本与文本一致。△右边是梯度法论文地址:https://arxiv.org/abs/2204.03458项目主页:https://video-diffusion.github.io/