我们知道,生成模型和多模态视觉语言模型的进步为大规模文本转图像模型铺平了道路,具有前所未有的生成真实性和多样性。这些模型提供了新的创作过程,但仅限于合成新图像而不是编辑现有图像。为了弥合这一差距,直观的基于文本的编辑方法可以对生成的图像和真实图像进行基于文本的编辑,并保留这些图像的一些原始属性。与图像类似,最近提出了很多文本到视频模型,但是很少有方法使用这些模型进行视频编辑。在文本引导的视频编辑中,用户提供输入视频和描述生成视频的预期属性的文本提示,如下图1所示。目标有以下三个方面,1)对齐,编辑后的视频要符合输入的文字提示;2)保真度,剪辑后的视频要保留原视频的内容,3)质量,剪辑后的视频要有高质量。如您所见,视频编辑比图像编辑更具挑战性,因为它需要合成新的动作,而不仅仅是修改视觉外观。此外,需要保持时间一致性。因此,对视频帧应用SDEdit、Prompt-to-Prompt等图像级别的编辑方式并不足以达到好的效果。在GoogleResearch等最近发表在arXiv上的一篇论文中,研究人员提出了一种新方法Dreamix,该方法受到UniTune的启发,将文本条件视频扩散模型(VDM)应用于视频编辑。论文地址:https://arxiv.org/pdf/2302.01329.pdf项目主页:https://dreamix-video-editing.github.io/本文方法的核心是保持文本条件VDM通过以下两个主要思路来输入高保真视频。一种不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过减小尺寸和添加噪声仅保留低时空信息;另一个通过微调原始视频Spend上的生成模型进一步提高原始视频的保真度。微调可确保模型了解原始视频的高分辨率属性。对输入视频进行简单的微调会导致相对较低的运动可编辑性,因为模型学会了更喜欢原始运动而不是遵循文本提示。研究人员提出了一种新颖的混合微调方法,其中VDM还对输入视频的单个帧的集合进行微调并丢弃它们的时间。混合微调显着提高了运动编辑的质量。研究人员进一步利用他们的视频编辑模型提出了一种新的图像动画框架,如下图2所示。该框架由几个步骤组成,例如为图像中的对象和背景设置动画、创建动态相机运动等。它们通过简单的图像处理操作(例如帧复制或几何图像转换)来创建粗略视频。然后使用Dreamix视频编辑器来编辑视频。此外,研究人员还将他们的微调方法用于对象驱动的视频生成,即Dreambooth的视频版本。在实验演示部分,研究人员进行了广泛的定性研究和人工评估,以展示其方法的强大功能,如下面的动画所示。对于Google的研究,建议3D+运动和编辑工具可能成为下一波论文的热门话题。其他人说:你可以在预算内立即制作自己的电影,你只需要一个绿屏和这项技术:方法概述本文提出了一种新的视频编辑方法,具体来说:通过逆向工程进行文本引导视频编辑损坏的视频。他们使用级联VDM(视频扩散模型)。首先,输入视频被降采样破坏,然后加入噪声。接下来是用于采样过程的级联扩散模型,以时间t为条件,将视频升级到最终的时空分辨率。在破坏输入视频的过程中,首先需要下采样得到基础模型(24×40的16帧),然后加入方差作为高斯噪声进一步破坏输入视频。对于上面处理过的视频,下一步是使用级联VDM将损坏的低分辨率视频映射到文本对齐的高分辨率视频。这里的核心思想是,给定一个嘈杂的、时空分辨率非常低的视频,有许多完全可行的、高分辨率的对应视频。本文中的基础模型从一个损坏的视频开始,它与时间s的扩散过程具有相同的噪声。然后该研究使用VDM来反转扩散过程,直到时间0。最后,视频通过超分辨率模型进行放大。混合视频图像微调仅使用输入视频对视频扩散模型进行微调将限制对象运动的变化。相反,这项研究使用了混合目标,即除了原始目标(左下角)之外,本文还使用了一组无序的帧进行微调,这是通过“maskedtemporalattention”来完成的,以防止微调引起的时间注意力和卷积(右下)。此操作允许向静止视频添加运动。Reasoning在应用预处理(AapplicationDependentPre-processing,下图左侧)的基础上,本研究支持多种应用,可以将输入内容转换成统一的视频格式。对于图像到视频,输入图像被复制和转换以合成带有一些相机运动的粗略视频;对于对象驱动的视频生成,其输入被省略并单独微调以保持保真度。然后使用DreamixVideoEditor(右)来编辑这个粗略的视频:如前所述,首先通过降采样破坏视频,添加噪声。然后应用微调的文本引导视频扩散模型将视频升级到最终的时空分辨率。实验结果视频编辑:下图中,Dreamix将动作改为跳舞,外观由猴子变为熊,但视频中主体的基本属性没有变化:Dreamix也可以生成流畅的视觉修饰与输入视频的时间信息一致,如下图SkateboardingDeer:ImagetoVideo:当输入为图像时,Dreamix可以使用其视频先于添加新的移动对象,例如独角兽迷雾森林,放大。企鹅出现在小屋旁边:对象驱动的视频生成:Dreamix还可以拍摄一组显示同一主题的图像,并生成以该主题为移动对象的新视频。下图是一只在树叶上蠕动的毛毛虫:除了定性分析,该研究还进行了基线比较,主要比较了Dreamix与Imagen-Video和即插即用(PnP)两种基线方法。下表显示了评分结果:图8显示了Dreamix编辑的视频和两个基线示例:文本到视频模型实现了低保真编辑,因为它不以原始视频为条件。PnP保留了场景,但缺乏跨帧的一致性;Dreamix在所有三个目标上都表现出色。有关更多技术细节,请参阅原始论文。
