Meta的逼真数字人2.0再次进化,现在可以用iPhone生成,拿出手机扫一扫!早在2019年3月,Facebook就在活动中展示了第一代数字人像(CodecAvatar1.0)。第一代数字人是使用多个神经网络和带有132个摄像头的专用捕获设备生成的。生成后,VR耳机上有5个摄像头。每只眼睛提供两个内部视图,面部下方提供三个外部视图。如下图。从那时起,Facebook不断改进这些化身的真实感,例如仅使用麦克风和眼动追踪技术就让它们更加逼真。最终在2020年8月演变成CodecAvatar2.0版本。2.0版本相对于1.0版本最大的改进是摄像头不再需要扫描和跟踪人脸,而只需要跟踪眼球运动。新的神经网络将来自VR耳机的眼球追踪数据与来自麦克风的音频信号融合在一起,以推断佩戴者可能的面部表情。将声音模型和眼动模型数据反馈给混合模型,再进行融合模型计算处理,由渲染器输出Avatar图像。今年5月,团队进一步宣布2.0版本的阿凡达已经完全实现了“完全逼真”的效果。“我想说的是,未来十年的一大挑战是我们是否能够实现与面对面交互无法区分的远程化身交互,”项目负责人之一谢赫说。看上面的对比,a是真人的照片,e是最后渲染生成的虚拟人。好像没什么吹牛的?别着急,以上是实验中的对比结果。其实在应用场景中,Meta头像目前的形象是这样的。就连最右边那个“最逼真”的形象也还是卡通形象,离“完全逼真”还有点距离,但Meta说的是十年。看演示中的图像,实现这个目标的希望不小。的。而且,虚拟人技术的进步不仅仅体现在一个方向的逼真,没必要一路走一条路,Meta也在尝试其他方向。比如摘下VR头显?以前生成一张Codec头像需要一个叫做“MUGSY”的特殊抓拍设备,上面有171个高分辨率摄像头,也就是上图那个。Meta现在说,不要带这个东西,只要有一个iPhone!只要带有正面深度传感器的智能手机(比如带有FaceID功能的iPhone)可以直接扫描(准确地说是几十次扫描),就可以生成逼真的虚拟人头。先留一张空白脸,扫描一次,然后做出各种不同的表情,最多支持65种不同的表情。据Meta称,用手机扫描面部表情平均需要3-4分钟。当然,算力的支持也是少不了的。最终生成的逼真头像在配备四个高端GPU的机器上大约需要6个小时。当然,如果这个技术用在产品上,这些计算都会交给云端GPU,不需要用户自己的计算资源。那么,为什么以前需要100个摄像头就可以做的事情,现在只需要一部手机就可以了呢?秘诀是称为超网络的通用模型。这是一个生成另一个神经网络权重的神经网络。在上面的例子中,是CodecAvatar生成了一个特定的人。研究人员通过扫描255张不同的面孔来训练模型,使用先进的捕捉设备,很像MUGSY,但只有90个摄像头。尽管其他研究人员展示了用智能手机扫描生成的人像,但Meta表示生成的结果处于SOTA级别。然而,目前的系统仍然无法应对眼镜和长发。并且只针对头部,不针对身体的其他部分。当然,要达到这种保真度,Meta还有很长的路要走。现在Meta的肖像有卡通风格。随着时间的推移,这种真实感会慢慢减弱。现在这个形象可能更适合玩《地平线世界》和《探索2》的人群。然而,CodecAvatar最终可能只是一个单独的选项,而不是现在的卡通化升级。MetaCEO扎克伯格是这样描述未来的:你可能用表现主义的肖像来玩普通的游戏,用更逼真的肖像去参加工作会议什么的。今年4月,负责CodecAvatar团队的YaserSheikh表示,“无法预测CodecAvatar将投入使用多长时间。”不过,他明确表示,他认为该项目取得了很大进展。
