当前位置: 首页 > 科技观察

Meta开发了全新的虚拟背景处理AI,让Metaverse中的人像不再模糊

时间:2023-03-12 07:16:55 科技观察

自从新冠疫情开始以来,大多数人已经习惯了与朋友、同事和家人进行远程视频通话。虚拟背景已用于视频聊天。用户可以在视频播放过程中改变背景,从而赋予自己对虚拟形象中周围环境的控制权,减少环境带来的干扰,保护隐私,甚至让用户在视频中看起来更有活力。但有时虚拟背景呈现的效果可能与用户需要的不同。大部分人都体验过移动时虚拟背景挡住了人脸,或者虚拟背景无法识别手和桌子的边界。最近,Meta利用增强的AI模型对其他Meta产品服务的图像分割、背景虚化功能、虚拟背景功能和AR效果进行了优化。这样可以更好地解析照片和视频的不同部分。来自MetaAI、RealityLab和Meta其他部门的跨部门研究人员和工程师最近开发了一种新的图像分割模型,该模型已应用于Portal、Messenger和Spark等多个平台的实时视频通话和Spark。Instagram的。AR增强现实应用。该小组还优化了双人图像分割模型,该模型已应用于Instagram和Messenger。如何让AI提升虚拟背景课题组在推动图像分割优化方面主要有以下三个挑战:1.让AI学会在不同环境下正常识别。例如环境较暗、人物肤色不同、人物肤色与背景色接近、人物姿势异常(如弯腰系鞋带、伸懒腰)、人物被挡住,人物在移动,等等。2.让边缘的位置看起来更平滑、稳定、连贯。这些特性在目前的研究中较少被讨论,但用户反馈研究表明,这些因素极大地影响了人们在使用各种背景效果时的体验。3.需要确保模型能够在全球数十亿部智能手机中灵活高效地运行。仅在少数往往配备最新处理器的最先进手机中可用是不好的。此外,模型必须支持各种宽高比的手机,以便模型可以在笔记本电脑、Meta的便携式视频通话设备以及纵向和横向模式的人们的手机上运行。Meta的AI模型处理后的虚拟背景示例,左为头部图像,右为全身图像。现实世界个人图像分割模型的挑战图像分割的概念很容易理解,但获得高精度的个人图像分割结果却很困难。处理图像的模型必须非常一致并且具有非常低的延迟才能获得良好的结果。不正确分割的图像输出会对使用虚拟背景的视频会议用户造成各种分散注意力的效果。更重要的是,图像分割错误会导致不必要地暴露用户的真实物理环境。正因如此,图像分割模型的准确率必须达到90%以上的交集率,才能进入实际的市场产品应用。交并比是衡量图像分割预测值与地面真值重叠率的常用标准度量。由于使用场景和示例的复杂性,Meta的图像分割模型要实现的最后10%的交集和并集比要远比前面所有部分都要困难。Meta的软件工程师发现,当交集比例达到90%时,图像的可测指标趋于饱和,时间一致性和空间稳定性难以提高。为了克服这个障碍,Meta开发了一个基于视频的测量系统,以及其他几个指标来解决这个额外的困难。为现实世界的应用开发人工智能训练和测量策略人工智能模型只能从交付的数据集中学习。因此,如果要训练一个高精度的图像分割模型,仅仅输入坐在明亮房间里的视频用户的大量视频样本是不够的。样本类型应尽可能接近现实世界。MetaAILab使用自有的ClusterFit模型,从海量的不同性别、肤色、年龄、身体姿势、动作、复杂背景和多人的样本中提取可用数据。静态图像的指标不能准确反映模型实时处理动态视频的质量,因为实时模型通常具有依赖于时间信息的跟踪模式。为了衡量模型的实时质量,MetaAILabs设计了一个量化的视频评估框架,在模型预测画面时计算每一帧的指标。与论文中的理想情况不同,Meta的个人图像分割模型是由大量的日常用户来判断的。如果存在锯齿、失真或其他不令人满意的效果,那么其他性能比基线好多少都无关紧要。因此,MetaAILab直接询问自家产品用户对图像分割效果的评价。结果是边缘锯齿和模糊对用户体验的影响最大。针对这一需求,MetaAILabs在视频评测框架中新增了“边交并并比”指标。当画面的一般I/O比超过90%,接近饱和时,边缘I/O比是一个更需要关注的指标。而且画面的时间一致性不够,会带来图形边缘的混色效果,也会影响用户体验。MetaAILabs使用两种方法来衡量镜头的时间一致性。首先,Meta研究人员假设时间上相邻的两帧图像基本相同。因此,模型预测的任何差异都意味着最终图片将存在时序不一致。其次,Meta研究人员从时间上紧邻的两帧的前景动作开始。前景中的光流允许模型从第N帧的预测值前进到第N+1帧。研究人员随后将这个预测值与实际的N+1帧值进行了比较。这两种方法衡量的差异程度通过交集比的衡量来体现。MetaAILabs使用来自30个物种的100多个类别的人的1,100个视频样本作为AI模型的输入,包括菲茨帕特里克量表上的所有人类代表性别和肤色。分析结果是,Meta的AI模型在人群所有子类别的视频处理效果上都具有相似的显着准确率,交集率和置信度都在95%以上,各类别交集率之间的差异基本为0.5性能优良可靠。不同肤色和性别的人的视频,Meta的AI模型处理后的交集和并集比数据优化模型架构Meta研究人员使用FBNetV3作为优化模型的主干。这是一种由多层混合形成的解码结构,每一层都具有相同的空间分辨率。研究人员设计了一种具有轻量级解码器和重量级编码器的架构,与完全对称的设计相比,它可以具有更好的性能。生成的架构由神经架构搜索提供支持,并针对设备上的速度进行了高度优化。语义分割模型架构。绿色矩形代表卷积层,黑色圆圈代表每一层的融合点。数据学习研究人员利用离线大容量PointRend模型,为未标注数据生成伪标准实值标签,增加训练数据量。同样,我们使用师生半监督模型来消除伪标签中的偏差。纵横比相关的重采样传统的深度学习模型将图像重采样为一个小正方形并将其输入神经网络。由于重新采样,图像会出现扭曲。并且由于每帧图像的宽高比不同,失真的幅度也会不同。畸变的存在以及畸变程度的不同会导致神经网络AI学习到不稳健的低级特征。这种由失真引起的限制在图像分割应用中被放大了。因此,如果大多数训练图像都是纵向比例,则该模型在实景图像和视频上的表现会更差。为了解决这个问题,研究团队采用了Detectron2的纵横比相关子采样方法,该方法将具有相似纵横比的图像分组,并再次将它们重新采样为相同的大小。左边是纵横比扭曲的baseline图像,右边是经过AI模型处理后的改进图像。纵横比相关的子采样方法需要填充具有相似纵横比的图像的边界,但通常使用该方法的零填充方法会产生伪影。更糟糕的是,随着网络深度的增加,这种伪影会传播到其他区域。过去,这些伪影通过多路复用边界被移除。最近的一项研究表明,卷积层中的反射边界可以通过最小化伪影的传播来进一步提高模型的质量,但相应地,延迟成本也会增加。下面给出了工件的示例以及如何删除它们的示例。当AI处理图形时,跟踪时间的不一致会导致帧与帧之间的预测差异,从而导致闪烁,从而极大地损害用户体验。为了提高时间一致性,研究人员设计了一种称为“掩码检测”的检测过程。它从当前帧图像(YUV)取三个通道,还有第四个通道。对于第一帧图像,第四通道只是一个空矩阵,对于后续的帧数,第四通道是对前一帧的预测。研究人员发现,这种利用第四通道跟踪的策略显着提高了时间一致性。同时,他们还采用了state-of-the-arttrackingmodels的一些思想,例如CRVOS和transformation-invariantCNN等建模策略,以获得时间稳定的分割模型。“Maskdetection”方法流程图Boundarycrossentropy构建平滑清晰的边界对于AR图像分割的应用至关重要。除了分割图像时的标准交叉熵损失外,研究人员还必须考虑边界加权损失。研究人员发现物体内部更容易被分割,因此Unet模型及其大部分后续变体的作者推荐使用tripletmapweightedloss来提高模型质量。但是三元图加权损失有一个局限性,即三元图只会根据标准实数值计算边界面积,因此对所有误判不敏感,属于非对称加权损失。受“BoundaryIntersectionandUnionRatio”的启发,研究人员采用交并比法提取标准实值和各种预测的边界区域,并在这些区域构建交叉熵损失。在有界交叉熵上训练的模型明显优于基线。除了使最终掩码输出中的边界区域更清晰之外,新模型在应用新方法后具有更低的误报率。Meta虚拟后台处理器应用的全新AI模型,拥有更高效、更稳定、更多样化的新功能。这些优化将提高背景过滤器的质量和一致性,从而提高在产品中的应用效果。例如,优化后的分割模型可用于识别多人场景和人物全身人像,以及被沙发、书桌或餐桌遮挡的全身人像。除了用于视频通话之外,这项技术还可以通过虚拟环境与现实世界中的人和物的结合,为AR和VR技术增添新的维度。在构建元宇宙和创造身临其境的体验时,此应用程序将尤为重要。