当前位置: 首页 > 科技观察

一边移动一边画画,你变成二次元:实时互动视频风格化

时间:2023-03-12 19:46:07 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。动画,动画,你动你的,我画我的。就像下面这张动图,左边是一张静态图片,随着画家一点一点勾勒出颜色,右边的动画也在实时变色。这就是来自布拉格捷克理工大学和Snap研究所的黑科技——**只需要特定的2帧就可以实时改变视频中物体的颜色、风格甚至风格。当然,更强大的还在后头。拍一张你的卡通头像,随意修改。有了这个头像,坐在镜头前的你也会实时变化。你甚至可以边画自己边欣赏慢慢变成动画效果的过程。可以说这边动,那边画,动画就出来了。而且整个过程不需要冗长的训练过程,也不需要大规模的训练数据集。该研究还提交给了SIGGRAPH2020。那么,如此神奇的效果是如何实现的呢?交互式视频风格化首先,输入一个由N帧组成的视频序列I。如下图所示,对于任意一帧Ii,可以选择使用maskMi来划定风格迁移区域,或者对整帧进行风格迁移。用户需要做的是提供风格化的关键帧Sk,其风格将以语义上有意义的方式转移到整个视频序列。与以前的方法不同,这种风格转换以随机顺序发生,无需等待较早的帧首先被风格化,也无需明确合并来自不同关键帧的风格化内容。也就是说,该方法实际上是一个翻译过滤器,可以从几个异构手绘示例Sk中快速学习风格,并将其“翻译”到视频序列I中的任何帧。这种图像转换框架是基于U-net实现的。此外,研究人员采用了基于补丁的训练方法和抑制视频闪烁的解决方案,以解决少样本训练和时间一致性的问题。基于图像块的训练策略关键帧是少样本数据。为了避免过拟合,研究人员采用了基于图像块的训练策略。从原始关键帧(Ik)中随机采样一组图像块(a),并在网络中生成它们的程式化副本(b)。然后,相对于从程式化关键帧(Sk)采样的相应图像块,计算这些程式化相应块(b)的损失,并将误差反向传播。这样的训练方案不限于任何特定的损失函数。在这项研究中,使用了L1损失、对抗性损失和VGG损失的组合。超参数优化解决了过拟合之后,还有一个问题,就是超参数的优化。不正确的超参数会导致推理质量差。研究人员采用网格搜索的方法对超参数的4维空间进行采样:Wp——训练图像块的大小;Nb——一批图像块的数量;α——学习率;Nr——ResNet块数量的大小。对于每个超参数设置:(1)执行给定时间训练;(2)对看不见的帧进行推理;(3)计算推断帧(O4)和地面实况(GT4)之间的损失。目标是最小化这种损失。ImprovingTimeConsistency训练翻译网络后,可以在显卡上实时或并行实现视频风格迁移。然而,研究人员发现,在许多情况下,视频闪烁仍然很明显。第一个原因是原始视频中存在时间噪声。为此,研究人员采用了在时域中运行的双边滤波器的运动补偿变体。第二个原因,是程式化内容的视觉模糊性。解决方案是提供一个额外的输入层来提高网络的判别能力。该层由随机二维高斯分布的稀疏集合组成,可帮助网络识别局部上下文并抑制歧义。不过,研究人员也提到了这种方法的局限性:当没有被风格化的新特征出现时,该方法通常无法为它们生成一致的风格化效果。需要提供额外的关键帧以使风格一致。难以处理高分辨率(如4K)关键帧。使用运动补偿双边滤波器和随机高斯混合层的创建需要获取多个视频帧,这需要更高的计算资源并且会影响实时视频流中的实时性。推理的效果。(在Demo的实时捕捉环节,没有使用任何处理方法来提高时间一致性。)这项研究的研究团队是Ond?ejTexler,他是捷克大学计算机图形与交互系的三年级博士生。布拉格技术大学。本科和硕士也都在这里毕业。他的主要研究兴趣是计算机图形学、图像处理、计算机视觉和深度学习。除了一部作品,我们还找到了一位中国作家——柴梦蕾。毕业于浙江大学,获博士学位。目前是SnapResearchCreativeVision小组的高级研究科学家。主要从事计算机视觉和计算机图形学研究,重点研究人体数字化、图像处理、3D重建和基于物理的动画。传送门项目地址:https://ondrejtexler.github.io/patch-based_training/