当前位置: 首页 > 科技观察

家族中没有王位继承?没关系,有人用AI创造了一个神奇的童话世界

时间:2023-03-15 19:05:29 科技观察

家里没有我,没有王座,但谁不梦想有一个王子或公主呢?最近,机器之心收留了一群“逃亡王子”。虽然这些皇子来自不同的王国,但符华道都来自同一个公司——快手。这是快手新推出的“童话魔法”特效。除了当王子,还可以过着当公主的瘾。各路明星纷纷晒出自己的公主特效图:杨幂、迪丽热巴露、一笑“童话魔法”是一种基于生成算法的视频特效技术,可以让用户预览公主变身公主王子的过程在他们的手机上实时显示神奇的效果。生成的图像不仅具有浓郁的童话风格,还保留了用户自身的外貌特征,为用户带来新奇的拍摄体验。目前这套“童话魔法”在冰雪公主、梦幻城堡、仙女公主、仙女王子等多种风格中都有变身效果。不仅如此,用户还可以根据自己的喜好进一步细化变形后的角色特效,添加各种风格的美妆、身材、滤镜、封面文字等,还可以更换配乐,或配音自己的声音并将其转化为小黄人或机器人。、萝莉、大叔等不同风格。《童话魔法》背后的快手黑科技早已不是新鲜事。此前,韩国游戏公司NCSOFT开发的无监督图像转换算法U-GAT-IT,通过引入可学习的ILN层和注意力机制,成功将人脸图像转换为日漫二维图像,引起业界广泛关注.专注于。但是,日本漫画和童话风格还是有很大区别的。为了完成童话风格的图像转换,生成的图像既要保留用户原有的外貌特征,又要具有动画3D人像风格,同时面临目标多样性不足的问题样式数据,所以U-GAT-IT不能满足需要。而之前曾经名噪一时的Toonify,似乎还不够。虽然Toonify能够完成真人到动画电影角色的转换,但是由于这种方法直接从微调后的StyleGAN模型中提取低分辨率层,而只保留了原始StyleGAN中的高分辨率层,转换后的图像与用原来的脸。有变形,无法完整保留原脸本身的外貌特征。此外,该方法生成的部分图像人脸存在颜色变化等问题,无法实时处理,不能满足工业产品上线要求。针对以上问题,快手Y-tech团队的AI工程师采用自主研发的KStyleGAN结构在3D空间中表示人脸结构,进行风格映射,利用神经网络渲染精细控制人脸生成图像的纹理,有效克服了传统基于二维表征的StyleGAN方法的不足,实现了移动端的实时特效。在模型结构方面,根据移动端和服务器端计算硬件的不同,通过半自动网络架构搜索(NAS)得到高效的网络结构,并在此基础上进行了多项创新。一方面,快手设计了一个像素级的注意力机制——STA模块(styletransferattentionmodule),以提高浅层和深层特征的融合。常见的特征融合方法包括浅层和深度特征直接相加、concat后进行多次卷积操作等。在风格迁移任务中,由于原图和目标图像差异较大,这些常见的融合方法往往会导致诸如原始图像信息丢失、生成质量差或样式感降低。STA模块,通过少量的计算,利用attention在像素级引导浅层和深层特征的融合过程,在保持风格感的同时保留更多原图细节,提高生成图像的质感.另一方面,快手构建了一个多分支、多深度的FS块(特征增强模块)来替代传统的Resnet块结构。在使用较少计算量的情况下,这种改进具有更强的特征细节增强能力和适应整体变形情况的能力,能够取得更好的生成效果。在模型训练方面,快手针对实时风格化任务中的各种效果做了有针对性的调整:通过混合训练,加强风格特征的学习,增强最终模型生成的风格感;模型金字塔中不同分辨率的特征,设计多任务多尺度监督,加快模型收敛,提高生成质量和鲁棒性;在对抗训练阶段引入预训练特征,提高判别器对细节纹理的判断能力,同时稳定判别器的训练过程,最终加强模型生成细节纹理的能力。特效虽然不错,但是如何适配所有机型的手机呢?特效虽然简单易用,但面对千差万别的手机机型和配置,如何实现设备算力和机型效果的最佳适配,提供最佳的用户体验?快手首先进行了详细的算力分类。由于移动硬件种类繁多,碎片化严重,算力分类面临横向和纵向的挑战。横向挑战:设备分为CPU、GPU、DSP、NPU。每种类型的计算能力不同。一般来说,算力等级是NPU≥GPU≥DSP≥CPU,但在实际情况中,各个等级的算力都会重叠甚至倒置。纵向挑战:以CPU为例,厂商包括苹果、高通、华为、MTK等,不同厂商、不同型号的CPU性能差异较大;类似的情况在GPU中也存在,比如Adreno和Mali系列。将碎片化的设备横向和纵向展开,会形成一个复杂的算力矩阵。快手自主研发的深度学习推理引擎YCNN和极度优化的后端代码在各种模型上进行了理论和实践测试,经过充分测试,最终设计出基于快手用户群的详细评分方案。快手在这套算力分类策略的指导下,调整了模型结构和计算量,设计了不同计算量的模型。比如针对CPU设计中等计算量效果更好的模型,而适合大算力的设备如NPU、GPU、DSP等可以运行计算量更大效果更好的模型。另外,实际应用中多模型会造成资源包过大,加载慢的问题。为此,引入了模型服务器分层传递机制。根据终端硬件信息,对设备进行分类发布并加载相应型号,充分利用设备的计算能力,为所有快手用户带来极致的效果体验。YCNN整体架构针对不同硬件层次设计,采用自主研发的算法压缩模型和YCNN引擎,让每一位用户都能玩出“童话魔法”。让每个人都有舞台,每个人都有“蜕变”的可能。这是快手追求技术突破,坚持用户至上的体现。