当前位置: 首页 > 科技观察

利用AI实现动画角色的姿态转移,Adobe等提出了一种新型的“人偶动画”

时间:2023-03-13 23:10:05 科技观察

相对于依赖创作者手绘的动画,人偶动画的制作是一个非常繁琐的过程。我们需要将一个动作分解成几个环节,逐帧拍摄,然后连续放映成电影。最近,Adobe和康奈尔大学提出了一种叫做“变形木偶模板”的动画制作方法,可以根据少量的卡通人物样本生成新的角色动作,类似于木偶动画的制作方法。最近,Adobe和康奈尔大学的研究人员提出了一种基于学习的动画方法,可以根据卡通人物的少量图像样本生成新的动画。在传统动画中,每一帧都是由创作者手绘的,因此输入图像缺乏共同的结构、配准或标签。研究人员将动画角色的动作变化推导为分层的2.5D模板网格的变形,并设计了一种新的架构来学习预测能够匹配模板和目标图像的网格变形,从而实现多种角色动作。从集合中抽象出一个共同的低维结构。研究人员将可微分渲染与网格感知(mesh-aware)模型相结合,以对齐通用模板,即使只有少量的卡通人物图像可以用于训练。除了运动之外,卡通人物的外貌也会因阴影、平面外运动(out-of-planemotion)、画面艺术效果而表现出细微的差异。研究人员使用图像翻译网络来捕捉这些细微的变化并改进网格渲染结果。他们还构建了一个端到端模型,用于生成更高质量卡通人物的新动画,可用于合成中间帧和创建数据驱动的变形,其模板拟合步骤可有效检测图像配准。效果明显优于目前通用技术。使用Adob??e新方法生成的1024×1024版本图像示例。卡通人物动画制作难点传统的人物动画制作过程比较繁琐,需要多位创作者的共同努力,每一帧动作的绘制都必须非常细致地完成。在《起风了:1000日的创作记录》中,宫崎骏透露,那几秒的镜头耗时1年零3个月。人类很容易在观察多个动作序列后详细想象角色在其他姿势下的样子,但这对算法来说就没那么容易了:关节发音、艺术效果、视角变化等都会产生巨大的影响关于图像的外观。细微差别,这些大大增加了提取底层字符结构的复杂性。人类的自然图像仍然可以依靠大量的标注或数据来提取共同的结构,但这种方法不适用于卡通人物,因为拓扑、几何和绘画风格不具有如此强的一致性。Adobe的解决方案就是解决这个问题。Adobe提出了一种方法,该方法依靠“可变形木偶模板”,根据少量图像样本为动画角色生成新外观。研究人员首先假设所有人物姿势都可以通过变形模板的扭曲生成,开发变形网络(deformationnetwork),以及网络编码图像和解码模板的变形参数;然后在可微渲染层中使用这些参数,渲染出与输入帧相匹配的图像。重建损失可以通过所有阶段反向传播,学习如何为所有训练帧注册此模板。然而,虽然渲染结果的pose是合理的,但与创作者绘制的图像相比还是有些逊色,因为它们只是扭曲了一个参考输入,并没有捕捉到阴影和艺术效果等因素造成的细微外观差异.为了进一步提高渲染结果的视觉质量,研究人员使用图像翻译网络来合成最终外观。本研究采用学术界和工业界普遍使用的分层2.5D变形模型(layered2.5Ddeformablemodel),再搭配多种传统手工动画风格。与需要大量专业知识才能使用的3D建模模板相比,这对用户来说要容易得多。如果用户想要生成人偶,选择单个帧,然后将前景角色拆分为多个身体组件,然后可以使用标准三角剖分工具将其转换为网格。在六个动画角色的制作任务中,研究人员使用70%-30%的训练-测试拆分比例来评估这种新方法:首先,评估模型对输入帧重构的效果,发现输出结果比目前最优的光流和自动编码器技术更准确。其次,对注册模板估计的注册质量进行了评估,发现其性能优于图像注册方法。最后,该模型被证明对数据驱动动画很有用,其中合成动画帧由训练期间捕获的角色外观决定。研究人员构建了一个原型应用程序,该应用程序可以合成中间帧并为用户指定的变形设置动画,从而生成具有角色合理变形的新图像。与计算机图形学中传统的基于能量的优化技术相比,这种数据驱动的方法可以产生更逼真的角色姿势,更接近创作者的绘画水平。方法本研究的目标是学习一种变形模型,以根据一组未标记的图像生成卡通人物。首先,用户通过分割参考帧创建一个分层变形模板木偶;然后训练一个两阶段的神经网络:第一阶段学习如何扭曲木偶模板以重新设计角色的外观,从而使变形木偶与输入序列中的每一帧匹配;第二阶段改进了变形木偶的渲染,允许纹理变化和运动效果,这是以前的2D变形阶段不可能实现的。分层变形木偶图1:变形木偶。a)为每个身体部位创建单独的网格并标记关节(见图中的圆圈);b)连接这些网格,最终网格的UV图像包含分割纹理贴图的翻译版本。与3D建模不同,分层2D人偶使用起来要简单得多,即使对于没有经验的用户也是如此。首先,用户选择一个参照系,提供不同身体部位的轮廓及其顺序,然后使用标准的三角剖分算法为每个部位生成网格,并在两个部位重叠区域的质心处创建关节点部分;然后运行中间带中点网格细分,可以调整更多细节,得到更精细的网格。变形网络一旦获得变形网络模板,它就可以学习如何对模板进行变形以匹配目标角色图像的新姿势。图2显示了训练架构:图2:训练架构。编码器-解码器网络学习网格变形,条件生成对抗网络改进渲染图像以捕获纹理变化。变形网络的输入是指初始网格和使用新姿势的目标角色的图像。encoder-decoder网络将目标图像通过卷积滤波器编码到瓶颈层,再通过全连接层解码到顶点位置偏差。Shift(顶点位置偏移)。这允许网络识别输入图像中的姿势并推断适当的模板变形以生成该姿势。AppearanceImprovementNetwork虽然变形网络可以捕捉到大部分关节,但仍有一些细微的外观变化(如艺术风格、阴影效果和平面外运动)是上述步骤无法实现的。因此,研究人员跟进推出了“外观改善网络”,对变形后的图像进行细化处理。架构和训练步骤类似于条件生成对抗网络。生成器细化渲染图像以使其更自然。实验结果与应用图3:输入图像,Adobe方法的渲染结果和最终结果,以及PWC-Net[55]和DAE[52]的结果。(输入图像中的前三个字符由ZuzanaStudena绘制,第四个字符由Adob??eCharacterAnimator绘制。)表1:目标图像和生成图像之间的平均L2距离。该表显示了Adob??e渲染图像和生成图像的方法与PWC-Net[55]、变形自动编码器[52]相比的结果。最后一列代表六个不同字符的平均L2距离。图4:将Adob??e方法的输出渲染为1024×1024图像的示例。