当前位置: 首页 > 科技观察

基于GAN生成流畅视频,效果非常好:无纹理粘连,抖动缓解

时间:2023-03-18 14:09:50 科技观察

近年来,基于生成对抗网络(GAN)的图像生成研究工作取得了显着进展。除了能够生成高分辨率、逼真的图片外,还出现了很多创新的应用,比如个性化图片编辑、图片动画等。但是,如何使用GAN进行视频生成仍然是一个具有挑战性的问题。除了对单帧图像建模外,视频生成还需要学习复杂的时间关系。近日,来自香港中文大学、上海人工智能实验室、蚂蚁科技研究院和加州大学洛杉矶分校的研究人员提出了一种新的视频生成方法(TowardsSmoothVideoComposition)。在这篇论文中,他们针对不同跨度(short-termrange、moderaterange、long-termrange)的时序关系进行了详细的建模和改进,并在多个数据集上取得了较之前工作的显着改进。这项工作为基于GAN的视频生成方向提供了一个简单有效的新基准。论文地址:https://arxiv.org/pdf/2212.07413.pdf项目代码链接:https://github.com/genforce/StyleSV模型架构基于GAN的图像生成网络可以表示为:I=G(Z),其中Z是随机变量,G是生成器网络,I是生成的图像。我们可以简单地将这个框架扩展到视频生成的范畴:I_i=G(z_i),i=[1,...,N],我们一次采样N个随机变量z_i,每个随机变量z_i对应于生成一帧图片??I_i。将生成的图片在时间维度上叠加即可得到生成的视频。基于此,MoCoGAN、StyleGAN-V等工作提出了解耦表达式:I_i=G(u,v_i),i=[1,...,N],其中u表示控制内容的随机变量,v_i表示控制动作的随机变量。此表示假定所有帧共享相同的内容并具有独特的操作。通过这种解耦的表达方式,我们可以更好地生成内容风格一致的动作视频,同时变化多端、逼真。新作品采用了StyleGAN-V的设计,并将其用作基线。视频生成的难点:如何有效合理地建模时序关系?新作着重于不同跨度(shorttimerange、mediumrange、longrange)的时序关系,分别进行了详细的建模和改进:1.短时(~5帧)时序关系我们先只考虑一个几帧视频。这些短视频帧通常包含非常相似的内容,只显示非常细微的动作。因此,在帧之间逼真地生成微妙的运动是至关重要的。然而,在StyleGAN-V生成的视频中会出现严重的纹理粘连。Texturesticking是指生成的部分内容依赖于特定坐标,导致“粘”在固定区域的现象。在图像生成领域,StyleGAN3通过细致的信号处理和扩大padding范围来缓解纹理粘连问题。这项工作验证了相同的技术对于视频生成仍然有效。在下面的可视化中,我们跟踪视频每一帧中相同位置的像素。不难发现,在StyleGAN-V视频中,部分内容长期“粘”在固定坐标处,并没有随时间移动,因此在可视化中出现了“画笔现象”。在新作品生成的视频中,所有像素都表现出自然的运动。然而,研究人员发现,引用StyleGAN3的主干会降低图像生成的质量。为了缓解这个问题,他们引入了图像级预训练。在预训练阶段,网络只需要考虑视频中某一帧的生成质量,不需要学习时间序列范围的建模,因此更容易学习图像分布知识。2.中等长度(~5秒)的时序关系由于生成的视频帧数较多,将能够表现出更具体的动作。因此,确保生成的视频中的逼真运动非常重要。比如我们要生成一个第一人称的驾驶视频,我们要生成逐渐后退的地面、街道场景,汽车要沿着自然的行驶轨迹行驶。在对抗训练中,判别网络对于确保生成网络得到足够的训练监督至关重要。因此,在视频生成中,为了保证生成网络能够生成逼真的动作,判别网络需要对多帧中的时间关系进行建模,捕捉生成的不真实的动作。然而,在之前的工作中,判别网络只使用了一个简单的连接操作来进行时间建模:y=cat(y_i),其中y_i表示单帧特征,y表示时间融合特征。对于判别网络,新工作提出了显式时序建模,即在判别网络的每一层引入了一个时间偏移模块(TSM)。TSM来自动作识别领域,通过简单的移位操作实现时间序列的信息交换:实验表明,引入TSM后,三个数据集上的FVD16和FVD128均有大幅缩减。3.无限长视频生成之前介绍的改进主要围绕中短视频生成,新作品进一步探索如何生成任意长度(包括无限长)的高质量视频。之前的工作(StyleGAN-V)可以生成无限长的视频,但是视频中包含非常明显的周期性抖动现象:如图所示,在StyleGAN-V生成的视频中,随着汽车的前进,斑马线原本是一个正常的向后运动后突然变为向前运动。这项工作发现运动嵌入的不连续性导致了这种抖动现象。之前的工作使用线性插值来计算动作特征,但是线性插值会导致一阶不连续,如下图所示(左为插值图,右为T-SNE特征可视化):本工作提出aB-splinecontrolActionfeatures(B-Splinebasedmotionembedding)。通过B样条插值可以获得更平滑的时间运动特征,如图(左为插值图,右为T-SNE特征可视化):通过引入B样条控制的运动特征,新作缓解了抖动现象:如图所示,在StyleGAN-V生成的视频中,路灯和地面会突然改变运动方向。然而,在新作品生成的视频中,运动方向是一致且自然的。同时,新作还提出了对动作特征的低秩约束,进一步缓解周期性重复内容的出现。实验工作在三个数据集(YouTubeDriving、Timelapse、Taichi-HD)上进行了充分的实验,充分对比了前人的工作。结果表明,新作品在图片质量(FID)和视频质量(FVD)上表现更好。,得到全面改善。SkyTimelapse实验结果:Taichi-HD实验结果:YouTubeDriving实验结果:总结新工作基于GAN模型,提出了一种新的视频生成基准。从不同尺度的时序关系出发,进行新颖有效的改进。对多个数据集的实验表明,新工作成功地实现了大大超过以前工作的视频质量。