当前位置: 首页 > 科技观察

自导自演的皮克斯动画不再是梦想,本工具实现了高分辨率、高度可控的真人视频转动画

时间:2023-03-20 11:50:35 科技观察

在社交网络和短视频平台上使用卡通头像录制视频是很多人喜欢的方法。但是我们也会发现一些问题,比如头像调整范围比较窄,和人不是那么像。近日,新加坡南洋理工大学的一项相关研究在reddit和推特上获得了数千个赞。他们开发了一个能够进行可控的高分辨率人像视频风格转换的框架——VToonify,在风格控制的灵活性、生成视频的质量和时间连贯性方面具有出色的表现。可以根据自己的需要灵活调整生成的风格类型和卡通化程度:从demo中可以看出,VToonify生成的人像不仅具有高度可调的卡通风格,还包含了很多人像细节。千面之情。因此,不少网友表示,有了这个工具,制作动画电影岂不是很简单?其他人正在想象将其应用于VR领域。当被问及是否可以作为实时过滤器使用时,作者表示:目前的模型还是很大的,需要做一些工程上的努力才能做到实时。论文概况论文链接:https://arxiv.org/pdf/2209.11224.pdf项目链接:https://github.com/williamyang1991/VToonifydemo链接:https://huggingface.co/spaces/PKUWilliamYang/VToonifycolab链接:https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb生成高质量的艺术肖像视频是计算机图形学和计算机视觉中的一项重要任务。虽然基于强大的StyleGAN,研究人员已经提出了一系列成功的人像卡通模型,但是这些面向图像的方法在应用到视频时有明显的局限性,比如帧尺寸固定、人脸对齐要求、缺乏非人脸细节的不一致等和时间等。也就是说,一种有效的视频卡通化方法需要克服以下挑战:能够处理未对齐的面部和不同的视频大小以保持运动自然。增加视频尺寸或使用广角可以捕获更多信息并防止面部移出画面;为了匹配目前广泛使用的高清设备,生成的视频必须有足够高的分辨率;要构建实用的用户交互系统,新方法应提供灵活的样式控制,允许用户调整和选择自己喜欢的样式。为了满足上述需求,研究人员提出了专门针对视频卡通化的混合框架——VToonify。具体来说,他们首先分析了StyleGAN的翻译同质性,这是克服“固定帧大小”限制的关键。如下图2(c)所示,VToonify结合了基于StyleGAN的框架和图像翻译框架的优势,实现了可控的高分辨率人像视频风格迁移。他们采用[PinkneyandAdler2020]的StyleGAN架构进行高分辨率视频风格迁移,但通过移除固定大小的输入特征和低分辨率层来适应StyleGAN以构建一个新的全卷积编码器生成器架构,类似于在图像转换框架中,支持不同的视频尺寸。除了原始的高级样式代码外,他们还训练编码器提取输入帧的多尺度内容特征作为生成器的附加内容条件,以便在样式期间更好地保留帧的关键视觉信息转移过程。他们遵循[Chen等人。2019;Viazovetskyi等人。2020]通过在合成配对数据上提取StyleGAN。此外,他们进一步提出了一种基于相机运动的单一合成数据模拟的闪烁抑制损失来消除闪烁。因此,VToonify可以在没有真实数据、复杂视频合成和显式光流计算的情况下学习快速且连贯的视频转换。与[Chen等人的标准图像翻译框架不同。2019;Viazovetskyi等人。2020],VToonify将StyleGAN模型合并到生成器中以提取数据和模型。因此,VToonify继承了StyleGAN风格调整的灵活性。通过重用StyleGAN作为生成器,研究人员只需要训练编码器,大大减少了训练时间和难度。按照上述方法,研究人员提出了基于两个具有代表性的StyleGAN主干的两个VToonify变体——Toonify[PinkneyandAdler2020]和DualStyleGAN[Yangetal.2022]—分别用于基于集合和示例。基于肖像视频卡通化。前者根据数据集的整体风格对人脸进行风格化,而后者使用数据集中的单个图像来指定更精细的风格,如图1右上角所示。研究人员通过采用风格来调整编码器的特征DualStyleGAN的控制模块[Yangetal.2022],精心设计数据生成和训练目标。VToonify继承了DualStyleGAN灵活的风格控制和风格调整,并将这些功能进一步扩展到视频中(如图1右上角所示)基于集合的人像视频风格转换在基于集合的人像视频风格转换中,研究人员利用代表作Toonify作为主干,它使用原始的StyleGAN架构,并且仅以样式代码为条件。如图4所示,基于集合的VToonify框架包括构建在Toonify之上的编码器