本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处转载。如果你想让名人向你学习如何说话,你应该怎么做?很简单,只要一张明星照片配上一段你说话的视频,分分钟搞定。看看效果:无论你是眨眼还是摇头,照片中的名人都会和你同步!这是意大利特伦托大学的一项研究:使用一阶运动模型(FirstOrderMotionModel),静态图像也可以运动,换脸没问题。这么有意思的项目当然开源了!一个在说话,一群斯塔克斯在说话,这项研究是在几个月前发表的。当时使用的输入视频是川建国同志,使用的静态照片是《冰与火之歌》史塔克家族和剧中其他角色的一组图片。效果是这样的:可以看出,无论川建国同志是眨眼还是摇头,剧中的人物都是同步的。就连标志性的O型嘴也被“模仿”得淋漓尽致。几个月后,该技术再次在Reddit上爆炸。一个可能的原因是,这次的视频输入来自流行的平台,也就是说我们自己录制视频也可以使用。再加上逼真有趣的效果,可能用不了多久,短视频内容平台可能会上线这个功能。当然,这个模型的神奇之处还不止于此。输入一段模特换位视频,再搭配多张静态服装照片,即可批量输出动态展示服装的视频。换脸也是小菜一碟。不过,也有温馨提示:慎用静态照片,否则得到的效果可能看起来不像“阳光下的东西”……在一阶运动模型的训练阶段,研究人员大量使用视频序列集合,包括同一类对象。该模型经过训练,可以通过将视频中的单帧与学习到的潜在运动表示相结合来重建视频。在测试阶段,研究人员将该模型应用于由源图像和驾驶视频的每一帧组成的对,并对源对象进行图像动画处理。模型框架如下图所示:框架主要由两部分组成:运动估计模块和图像生成模块。运动估计模块的目的是预测密集的运动场。研究人员假设了一个抽象的参考系,并独立估计了“从参考到源头”和“从参考到驱动”的两种转换。这使得能够独立处理源帧和驱动程序帧。研究人员认为这一步是必要的,因为在测试时,模型会接收成对的源图像和从不同视频中采样的驱动帧,这些视频在视觉上可能非常不同。第一步,研究人员从一组稀疏轨迹中近似这两个变换,这些轨迹是通过使用以自我监督方式学习的关键点获得的。每个关键点周围的运动使用局部仿射变换建模。第二步,将稠密运动网络与局部近似相结合,得到稠密运动场。除其他外,该网络输出遮挡掩码,指示图像的哪些驱动部分可以通过扭曲源图像以及应该绘制哪些部分(从上下文推断)来重建。第三步,生成模块渲染行车视频中提供的源对象的运动图像。在这里,研究人员使用生成器网络根据密集运动扭曲源图像,并对源图像中被遮挡的图像部分进行着色。最后,这个模型已经在GitHub上开源了,我们在“传送门”中提供了地址链接。去试试吧~传送门GitHub项目地址:https://github.com/AliaksandrSiarohin/first-order-model论文地址:https://arxiv.org/pdf/2003.00196.pdf
