当前位置: 首页 > 科技观察

仅需2张图,AI便可生成完整运动过程

时间:2023-03-17 11:36:27 科技观察

AI只需2张图片就可以生成完整的运动过程。先给侧脸(关键帧1):再给正脸(关键帧2):然后就是根据这两张图片,AI处理生成整个运动过程:而不只是简单的这样,连运动时的眨眼动作被“照顾”的很好。效果一出,在Reddit上引发了大量热议:如何只用2个关键帧实现完整的运动?不需要冗长的培训过程。不需要大型训练数据集。这是这部作品的作者提出的两个亮点。具体来说,这项工作根据关键帧对视频进行风格化。首先输入一个视频序列I,它由N帧组织而成,每帧都有一个maskMi来划分感兴趣区域。与以前的方法不同,这种风格转换以随机顺序发生,无需等待较早的帧首先被风格化,也无需明确合并来自不同关键帧的风格化内容。也就是说,该方法实际上是一个翻译过滤器,可以从几个异构手绘示例Sk中快速学习风格,并将其“翻译”到视频序列I中的任何帧。这种图像转换框架是基于U-net实现的。此外,研究人员采用了基于补丁的训练方法和抑制视频闪烁的解决方案,以解决少样本训练和时间一致性的问题。为了避免过拟合,研究人员采用了基于图像块的训练策略。从原始关键帧(Ik)中随机采样一组图像块(a),并在网络中生成它们的程式化副本(b)。然后,相对于从程式化关键帧(Sk)采样的相应图像块,计算这些程式化相应块(b)的损失,并将误差反向传播。这样的训练方案不限于任何特定的损失函数。在这项研究中,使用了L1损失、对抗性损失和VGG损失的组合。另一个问题是超参数的优化。这是因为不合适的超参数会导致推理质量差。研究人员采用网格搜索的方法对超参数的4维空间进行采样:Wp——训练图像块的大小;Nb——一批中的块数;α——学习率;Nr——ResNet块的数量。对于每个超参数设置:(1)执行给定时间训练;(2)对看不见的帧进行推理;(3)计算推断帧(O4)和地面实况(GT4)之间的损失。目标是最小化这种损失。该团队以Ond?ejTexler的身份介绍了这项研究,他是位于布拉格的捷克技术大学计算机图形与交互系的博士生。除了这项工作,他和他的团队之前还做过很多有趣的工作。比如在画手绘的时候,让它动起来。又比如给一张卡通图片,让视频中的你站在这张图片上“声色俱佳”。更多有趣的研究,请点击以下链接。参考链接:[1]https://www.reddit.com/r/MachineLearning/comments/n3b1m6/r_fewshot_patchbased_training_siggraph_2020_dr/[2]https://ondrejtexler.github.io/patch-based_training/index.html