当前位置: 首页 > 科技观察

给我一张图片并生成一个30秒的视频!

时间:2023-03-18 19:05:18 科技观察

AI又进阶了?它是那种从图片生成连贯的30秒视频的类型。嗯....质量是不是有点太模糊了,不知道这只是从单个图像(第一帧)生成的,没有显示任何几何信息。这是DeepMind最近提出的基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。简单的说,Transframer就是用来预测任意一帧的概率。这些帧可以以一个或多个带注释的上下文帧为条件,可以是先前的视频帧、带时间戳或相机标记的视图场景。Transframer架构让我们来看看这个神奇的Transframer架构是如何工作的。下面贴出论文地址,有兴趣的童鞋可以看看~https://arxiv.org/abs/2203.09494为了估计目标图像上的预测分布,我们需要一个能够产生多样且高质量输出模型。虽然DCTransformer在单图像域上的结果可以满足要求,但它并不以我们需要的多图像文本集{(In,an)}n为条件。因此,我们扩展DCTransformer以启用图像和注释条件预测。我们替换了DCTransformer的Vision-Transformer式编码器,该编码器在具有多帧U-Net架构的单个DCT图像上运行,用于一组带注释的帧以及部分隐藏的目标DCT图像。让我们看看Transframer架构是如何工作的。(a)Transframer将DCT图像(a1和a2)和带有附加注释的部分隐藏目标DCT图像(aT)作为输入,这些图像由多帧U-Net编码器处理。接下来,U-Net输出通过cross-attention传递给DC-Transformer解码器,解码器自动回归生成目标图像隐藏部分对应的DCTToken序列(绿色字母)。(b)多帧U-Net块由NF-Net卷积块、多帧自注意块组成,它们在输入帧和Transformer式残差MLP之间交换信息。让我们看一下处理图像输入的多帧U-Net。U-Net的输入是N个DCT帧和部分隐藏的目标DCT帧的序列,注释信息以与每个输入帧相关联的向量的形式提供。U-Net的核心组件是一个计算块,它首先将共享的NF-ResNet卷积块应用于每个输入帧,然后应用Transformer风格的自注意力块来跨帧聚合信息。(图2b)NF-ResNet块由分组卷积和挤压激发层组成,旨在提高TPU的性能。下面,图(a)比较了RoboNet(128x128)和KITTI视频的绝对和残差DCT表示的稀疏性。由于RoboNet由只有少量运动元素的静态视频组成,因此残差帧表示的稀疏性显着增加。而KITTI视频通常有一个移动的相机,导致连续帧中几乎到处都有差异。但在这种情况下,小稀疏性的好处也被削弱了。多视觉任务专家通过一系列数据集和任务,结果表明Transframer可以应用于广泛的任务。其中包括视频建模、新视图合成、语义分割、对象识别、深度估计、光流预测等。视频建模使用Transframer来预测给定输入视频帧序列的下一帧。研究人员在KITTI和RoboNet数据集上训练了Transframer在视频生成方面的表现。对于KITTI,给定5个上下文帧和25个样本帧,结果表明Transframer模型提高了所有指标的性能,其中LPIPS和FVD的改进最为明显。在RoboNet上,研究人员给出了2个上下文帧和10个样本帧,分别在64x64和128x128的分辨率下进行训练,最终取得了很好的效果。视图合成在视图合成方面,我们通过提供相机视图作为表1(第3行)中描述的上下文和对象注释来工作,并对多个上下文视图进行统一采样,直至达到指定的最大值。通过提供1-2个上下文视图,模型Transframer在ShapeNet基准测试上进行了评估,其性能明显优于PixelNeRF和SRN。此外,在对数据集Objectron进行评估后,可以看出,当给定单个输入视图时,模型会产生连贯的输出,但会遗漏一些特征,例如交叉的椅子腿。当给定一个上下文视图时,在128×128分辨率下合成的视图如下:当再给定两个上下文视图时,在128×128分辨率下合成的视图如下:多视觉任务不同的计算机视觉任务通常使用复杂的体系结构和损失函数来处理。在这里,研究人员在8个不同的任务和数据集上使用相同的损失函数联合训练了Transframer模型。这8个任务是:单个图像的光流预测、对象分类、检测和分割、语义分割(在2个数据集上)、未来帧预测和深度估计。结果表明,Transframer学会了在完全不同的任务中生成不同的样本,并且在某些任务(例如Cityscapes)中,该模型产生了高质量的输出。然而,未来帧预测和边界框检测等任务的模型输出质量是可变的,这表明在这种情况下建模更具挑战性。