当前位置: 首页 > 科技观察

人脸风格化技术在移动端的应用

时间:2023-03-13 14:38:34 科技观察

前言随着虚拟世界、数字人、虚拟形象等概念的爆炸式增长,各种数字化协同交互的泛娱乐应用也在不断落地。例如,在某些游戏中,玩家化身虚拟艺术家参与真实艺术家的日常工作,还原度高,在特定情况下,会在面部表情等层面与虚拟艺术家形成强映射,增强参与感。阿里巴巴天猫联合推出的超写实数字人AYAYI和井柏然杂志《MO Magazine》打破了传统的二次元阅读体验,以虚实结合的形式让读者获得身临其境的体验。在这些泛娱乐应用场景中,“人”肯定是首先要考虑的。然而,人工设计的数字和动画图像存在过于“抽象”、价格昂贵、缺乏个性化等问题。因此,在人脸数字化方面,我们开发了具有良好控制感、ID和风格化的人脸风格化技术,实现自定义风格的人脸图像切换。该技术不仅可以在直播、短视频等娱乐消费场景中作为营造氛围、提升感知的有效手段,还可以在买手秀等图文场景中保护人脸隐私、增添趣味。进一步想象,如果不同的用户聚集在某个数字社区中,使用该社区的数字图像进行聊天和社交(例如“两城之战”的用户使用元宇宙中两城之战的程式化图像进行聊天和社交)。befriendly)communication),那是一个很有代入感的东西。两城之战动画左图为AYAYI原图,右图为程式化图。为了将人脸风格化技术应用到我们不同的直播、买家秀、卖家秀等泛娱乐业务场景中,我们实现了:低成本制作不同人脸风格化编辑模型(本文展示)全部无需任何设计资源输入即可实现效果);适当的样式编辑以匹配样式选择的设计、产品和操作;能够在人脸ID感和风格化程度之间倾斜平衡;确保模型的泛化适用于不同的人脸、角度、场景环境;在保证清晰度等效果的前提下,降低了模型对计算能力的要求。下面先来看一下demo,再介绍一下我们的整个技术流程:感谢我们的产品mm-多飞~我们整体的算法方案分为三个阶段:阶段1:基于StyleGAN的程式化数据生成;阶段2:无监督图像翻译生成配对图像;阶段3:使用配对图像训练移动监督图像翻译模型。人脸风格化编辑整体算法方案当然也可以采用两阶段的方案:StyleGAN做一对图像对,然后直接训练一个有监督的小模型。然而,添加一个无监督的图像翻译阶段可以解耦程式化数据生产和配对图像数据生产这两个任务。通过对台内算法和台间数据的优化改进,结合移动端有监督小模型训练,最终解决低成本风格化模型制作、风格编辑选择、ID感和风格化倾斜等问题和轻量级部署模型。基于StyleGAN的数据生成使用StyleGAN算法进行数据生成的工作主要是为了解决三个问题:提高模型生成数据的丰富度和风格化:比如生成的CG人脸更像CG,以及所有角度、表情、发型提升数据生成效率:生成的数据产量高,分布更可控;样式编辑选择:比如修改CG人脸眼睛的大小。下面我们着重介绍这三个方面。?丰富度与风格化基于StyleGAN2-ADA的迁移学习遇到的第一个重要问题是:模型的丰富度与模型的风格化程度之间的权衡。使用训练集进行迁移学习时,受训练集数据丰富性的影响,迁移模型在面部表情、面部角度、面部元素等方面的丰富性也会受到破坏;同时,随着迁移训练的迭代次数越高,模型程式化/FID程度越高,模型的丰富度会越低。这会使后续应用模型生成的程式化数据集分布过于单调,不利于U-GAT-IT的训练。为了提高模型的丰富性,我们做了以下改进:调整优化训练数据集的数据分布;模型融合:由于源模型是在大量数据上训练的,所以源模型的生成空间具有非常高的丰富度;如果将迁移模型的低分辨率层的权重替换为源模型对应层的权重,得到融合模型,可以使新模型生成的图像在上的分布与源模型一致大元素/特征,从而获得与源模型一致的丰富度;fusion方法:Swaplayer直接交换不同层的参数,容易造成生成图像的不协调和细节badcases;并且通过平滑的模型插值,可以获得更好的生成效果(下图都是插值融合方法的融合模型生成的)来约束和优化不同层的学习率和特征;迭代优化:人工筛选新产生的数据,将其添加到原有的程式化数据集中,提高丰富度,然后迭代训练优化,直到得到能够产生高丰富度和满意程式化的模型。原图、迁移模型、融合模型?数据生成效率如果我们有一个高丰富度的StyleGAN2模型,如何生成一个分布丰富的风格数据集?有两种方法:随机采样隐藏变量生成随机样式数据集;使用StyleGAN反演,输入符合一定分布的人脸数据,创建对应的风格数据集。方法一可以提供更丰富的程式化数据(尤其是背景的丰富性),而方法二可以提高生成数据的有效性并提供一定程度的分布控制,提高程式化数据的生产效率。原图,StyleGANInversion得到的hiddenvector送入“进阶人脸风格/动画风格”StyleGAN2generator?styleeditingandselection得到的图像原图不太好看,所以不能用了法则改为NoNoNo,每个模型不仅可以用来生成数据,还可以沉淀为一个基础组件和基础能力。不仅可以对原有风格进行微调和优化,甚至可以创建新的风格:模型融合:通过融合多个模型,设置不同的融合参数/层,使用不同的融合方法等,可以实现优化劣质样式模型,同时实现样式的调整;模型嵌套娃娃:将不同风格的模型串联起来,使最终输出的风格带有中间模型的一些特征、颜色等风格特征。在融合过程中,通过风格创作和微调,可以对漫画风格(瞳色、唇色、肤色等)进行微调,从而实现不同风格的模型,从而实现制作不同风格的人脸数据。通过基于StyleGAN的迁移学习、样式编辑优化、数据生成,我们可以拿到我们的第一桶金