一个火爆的AI项目今天一大早就被网友安抚了。听说可以带你环游世界,让杨颖拍更多的电视剧。什么情况??仔细了解后,原来是一款AI视频抠图神器,一早就冲上了GitHub热榜。据官方介绍,这款AI神器可以让视频处理变得非常简单和专业,无需“绿屏”,还能实现逼真的无缝合成效果。果然,工人的“环游世界”只能靠AI来实现[泪]。其实视频抠图AI已经有很多了,但这一款真的很厉害。我们先来看看它的demo。你能分辨出视频中道路背景和大海背景哪个是AI合成的吗?就连竖起的头发也看不出有什么破绽。而且就算是狂舞也丝毫不影响合成效果。再来看看背后的镂空细节,不仅头发精准,就连漂浮的碎发……动态效果也是如此,疯狂摇头都能实时捕捉到细节。这款超级AI抠图神器来自香港城市大学与商汤科技的联合研究团队。论文第一作者为博士生张汉科。接下来,我们来看看其背后的技术原理。目标分解网络MODNet的关键在于,这款AI采用了轻量级的目标分解网络MODNet(MattingObjectiveDecompositionNetwork),可以平滑地处理来自不同背景的单一输入图像的动态人像。简单来说,它的作用就是视频人像抠图。我们知道,有些影视作品,尤其是古装剧,一定要对人物背景进行后期处理。为了达到逼真的合成效果,拍摄时一般采用“绿屏”作为背景。因为绿屏使高质量的alpha蒙版能够实时提取图像或视频中的人物。另外,如果没有绿屏,常用的技术方法是光照处理方法,即使使用预定义的Trimap作为自然光照算法的输入。这种方法粗略地产生一个三位图:一个明确的(不透明)前景,一个明确的(透明)背景,以及介于两者之间的未知(不透明)区域。手动注释三位图不仅成本高昂,而且深度相机会导致精度损失。因此,针对上述不足,研究人员提出了目标分解网络MODNet。如图所示,MODNet由三个相互依赖的分支S、D和F组成。他们分别通过一个低分辨率分支来预测人类语义(SP),一个高分辨率分支来关注纵向边界细节(DP),以及一个最终融合分支来预测AlphaMatte(αp)。详情如下:语义估计:使用MobileNetV2[35]架构,通过编码器(即MODNet的低分辨率分支)提取高级语义。细节预测:处理前景人像周围的过渡区域,将I、S(I)和S的低级特征作为输入。同时对其卷积层数、通道数、输入分辨率三个方面进行了优化。语义细节融合(Semantic-DetailFusion):一个融合语义和细节的CNN模块,它对S(I)进行上采样以匹配其形状与D(I,S(I)),然后S(I)和D(I,S(I))连接起来预测最终的αp。此外,基于上述底层框架,本研究还提出了自监督策略SOC(Sub-ObjectivesConsistency)和帧延迟处理方法OFD(One-FrameDelay)。其中,SOC策略在处理未标注数据时可以保证MODNet架构输出子目标之间的一致性;OFD方法可以在执行纵向键控视频任务时预测平滑视频序列中的Alphamask。如下图:实验评估在进行实验评估之前,研究人员创建了一个摄影人像基准数据集PPM-100(PhotographicPortraitMatting)。它包含100张带有不同背景的精细注释的肖像图像。为了保证样本的多样性,PPM-100还定义了几种分类规则来平衡样本类型,比如是否包括整个人体;图片背景是否模糊;是否持有其他对象。如图:PPM-100中的样本图像具有丰富的背景和人物姿势。因此,它可以被视为一个更全面的基准。那么我们来看一下实验结果:图中显示MODNet在MSE(均方误差)和MAD(均值)上都优于其他没有Trimap的方法。虽然其性能不如使用Trimap的DIM,但如果将MODNet修改为基于Trimap的方法——即以Trimap作为输入,其性能将优于基于Trimap的DIM,这再次说明了MODNet结构体系的优越性。此外,研究人员进一步展示了MODNet在模型规模和执行效率方面的优势。其中,模型大小通过参数总数来衡量,执行效率通过NVIDIAGTX1080TiGPU(输入图像裁剪为512×512)上超过PPM-100的平均参考时间来体现。结果如图:上图显示MODNet的推理时间为15.8ms(63fps),是FDMPA(31fps)的两倍。尽管MODNet的参数略多于FDMPA,但它的性能要好得多。需要注意的是,更少的参数并不意味着更快的推理速度,因为模型可能具有更大的特征图或耗时机制,例如注意力机制(AttentionMechanisms)。总之,MODNet提出了一种简单、快速、有效的实时人像抠图处理方法。该方法仅以RGB图像为输入,实现场景变化下的alphamask预测。此外,由于提出了SOC和OFD,MODNet在实际应用中也较少受到domainshift问题的影响。不幸的是,这种方法无法处理复杂的服装和模糊的运动视频,因为这些都没有包含在训练数据集中。在下一阶段,研究人员将尝试通过添加子目标(例如光流估计)来解决运动模糊下的视频抠图问题。
