当前位置: 首页 > 科技观察

AI化特朗普为舞者,跟着蔡徐坤跳《鸡你真美》

时间:2023-03-14 01:03:47 科技观察

“好家伙!”“现在Paper越来越瘦了。”一个钓鱼愉快的同事,边说边给我发了一个demo。原来,“金银宝贝”特朗普又被玩坏了。《被逼》和蔡徐坤跳《鸡你太美》(谐音梗)。(传宝:AI不讲武术!)和二次元萝莉跳起了可爱的宅舞。(传宝:给我个小红帽,我跳得比她好[傲娇脸])我和印度小哥跳了Jackson的经典舞步。(传宝:看我的舞姿,是不是很性感?)看完demo,我这个因为找不到话题而疯狂揪头发的小编愣了一下:好家伙!今天有个话题!赶紧让同事把资料推送给我。原来,迫使传宝炫耀舞蹈的,是上海科技大学研究团队的最新AI。这篇人工智能论文的题目是——《Liquid Warping GAN with Attention:A Unified Frame work for Human Images Synthesis》。简单的理解就是基于特定框架的AI可以完成运动模拟、外观变换和新视图。合成等人体图像处理任务。上面特朗普的舞蹈demo就是AI合成的最终演示效果。(完整视频见文末)接下来,我们来看看其背后的合成原理。“注意力液化GAN”模型人体图像合成在影视制作、游戏制作、角色动画/转场、虚拟试衣等方面具有巨大的潜在应用。一般来说,给定一个源人像和一个参考图像,需要完成三个任务:1.运动模拟:生成具有源人体纹理和参考人体姿势的图像。2.新视角合成:从不同视角捕捉并合成新的人体图像。3.外观变换:参照人体图像生成穿着衣服时保持源脸身份的人像。(不同的人可能穿同样的衣服)在处理上述任务时,现有的方法主要使用2D关键点来估计人体结构。然而,它们仅表达位置信息,不能代表人的个性化形状和模拟肢体旋转。对此,研究人员提出了一种新的模型处理框架:它包括体网格恢复模块(BodyMeshRecovery)、流合成模块(FlowComposition)和液体翘曲块(LWB)GAN模块三部分。Isi是给定的源图像,lr是参考图像。3D人体网格恢复模块用于解开人体姿态和形状,不仅可以模拟关节的位置和旋转,还可以刻画个性化的体型;LiquidWarpingBlock(AttLWB)的GAN,保留了纹理、样式、颜色和面部身份等源信息;将图像和特征空间中的源信息传播到合成参考,通过去噪卷积自编码器提取源特征,以很好地表征源身份。具体方法如下:BodyMeshRecovery:其作用是预测运动姿势(肢体旋转)和形状参数,以及每幅图像的三维网格。主要使用HMR进行3D位姿和形状估计。FlowComposition:在已有预估的基础上,利用相机视图为每个源网格和参考网格绘制对应图和权重指标图。这主要是使用完全可微分的渲染器——神经网格渲染器(NMR)来完成的。AttentionalLiquidWarpingGAN:该阶段负责合成高保真人体图像。需要做的是:1)合成背景图像。采用三流法:包括GBG流,级联蒙版背景图和颜色通道中得到的蒙版;源标识流GSID,指导编码器提取能保留源信息的特征;sourceidentificationflowGT-SF,通过双线性采样器接收扭曲的前景,对应一个地图作为输入来合成最终结果。2)根据可见部分预测不可见部分的颜色。判别器用于识别,是一个全局-局部内容导向(Global-LocalContentorientation)架构,包括三部分:全局判别器DGlobal、身体判别器DBody和人脸判别器。3)从SMPL重建中生成衣服、头发等像素。这里主要使用了attentionliquefactionblock(如下图),解决了人体运动模拟中源图像的多视点输入和外观迁移中不同人的不同部位的衣服等问题旧方法。此外,为了提高泛化能力,研究人员引入了单次/多次学习策略。创建数据集除了模型,要想获得高保真的输出效果,还需要高质量的数据集。研究人员构建了三个测试/训练数据集和一个评估数据集。它们是Impersonator、MotionSynthetic、FashionVideo和Youtube-Dancer-18。Impersonator(iPER)是一个数据集,具有多种风格,不同角色穿着不同的衣服。它有206个视频和241564帧。涉及30名受试者,每人穿着不同的衣服(共103件衣服),表演一个A型视频和一个随机动作视频。此外,iPER还包括他们的动作、衣着、身高和体重分布等统计数据。MotionSynthetic运动合成数据集,创建该数据集的目的是为了方便综合评价人体穿着的真实性,尤其是通过合成图像数据集,可以综合评价不同服装的外观。该数据集共有120个网格,所有网格都有在SMPL中注册的UV纹理图像。对于每个网格,姿势序列是从Mixamo中选择的,背景图像是从互联网中选择的。基于网格、UV图像、姿势序列和背景图像等信息,使用核磁共振(NMR)渲染合成图像,总共产生39,529帧。然后根据不同的网格划分成8:2的训练/测试集,如下图合成图像所示。FashionVideo:包含500个训练视频和100个测试视频,每个女模特都穿着Fashion的衣服,服装和质地千差万别,手势很少。每个视频大约有350帧。此外,这个数据集缺乏背景的多样性,所有背景都是黑色的。如图:Youtube-Dancer-18:作为评估数据集来测试方法的有效性和通用性。全部来自YouTube平台,一共18个,每个视频时长4到12分钟。(上图中的Dancer)需要注意的是,研究人员并没有在这个数据集上训练模型,只是对SN帧进行个性化采样,直接对数据集进行测试,以评估现有所有方法的泛化能力。通过实验分析,与现有的其他方法相比,该方法在运动模拟、外观变换和新视图合成三个综合任务中取得了最好的性能。再来看另一组demo:研究团队之前说过,这个AI研究团队来自上海科技大学。高盛华,上海科技大学副教授、博士生导师。他也是该研究的通讯作者。2008年获中国科学技术大学理学学士学位(优秀毕业生),获博士学位。2012年获南洋理工大学博士学位。2012-2014年在新加坡高级数字科学中心从事博士后研究。他的研究兴趣包括计算机视觉和机器学习。该研究第一作者为上海科技大学博士生刘文。他的研究重点是人体3D重建、图像合成、运动传输、新视角合成、神经渲染和视频异常检测。其他作者包括:马琳,深圳腾讯人工智能实验室首席研究员,主要研究方向为计算机视觉和多模态深度学习;朴志新,上海科技大学硕士,主要研究方向为三维人体重建与运动传递;毕业于上海科技大学涂盛志,研究方向为人体运动传递与医学图像分析;罗文涵,英国帝国理工学院博士,研究方向包括运动分析、图像/视频质量恢复、目标检测与识别、强化学习等计算机视觉和机器学习的多个课题。论文地址:https://arxiv.org/pdf/2011.09055v2.pdfYouTube地址:https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be