AI视频抠图有多厉害：不用“绿屏”，还能实现电影级效果

时间：2023-03-15 23:05:26 科技观察

一个火爆的AI项目今天一大早就被网友安抚了。听说可以带你环游世界，让杨颖拍更多的电视剧。什么情况？？仔细了解后，原来是一款AI视频抠图神器，一早就冲上了GitHub热榜。据官方介绍，这款AI神器可以让视频处理变得非常简单和专业，无需“绿屏”，还能实现逼真的无缝合成效果。果然，工人的“环游世界”只能靠AI来实现[泪]。其实视频抠图AI已经有很多了，但这一款真的很厉害。我们先来看看它的demo。你能分辨出视频中道路背景和大海背景哪个是AI合成的吗？就连竖起的头发也看不出有什么破绽。而且就算是狂舞也丝毫不影响合成效果。再来看看背后的镂空细节，不仅头发精准，就连漂浮的碎发……动态效果也是如此，疯狂摇头都能实时捕捉到细节。这款超级AI抠图神器来自香港城市大学与商汤科技的联合研究团队。论文第一作者为博士生张汉科。接下来，我们来看看其背后的技术原理。目标分解网络MODNet的关键在于，这款AI采用了轻量级的目标分解网络MODNet（MattingObjectiveDecompositionNetwork），可以平滑地处理来自不同背景的单一输入图像的动态人像。简单来说，它的作用就是视频人像抠图。我们知道，有些影视作品，尤其是古装剧，一定要对人物背景进行后期处理。为了达到逼真的合成效果，拍摄时一般采用“绿屏”作为背景。因为绿屏使高质量的alpha蒙版能够实时提取图像或视频中的人物。另外，如果没有绿屏，常用的技术方法是光照处理方法，即使使用预定义的Trimap作为自然光照算法的输入。这种方法粗略地产生一个三位图：一个明确的（不透明）前景，一个明确的（透明）背景，以及介于两者之间的未知（不透明）区域。手动注释三位图不仅成本高昂，而且深度相机会导致精度损失。因此，针对上述不足，研究人员提出了目标分解网络MODNet。如图所示，MODNet由三个相互依赖的分支S、D和F组成。他们分别通过一个低分辨率分支来预测人类语义（SP），一个高分辨率分支来关注纵向边界细节（DP），以及一个最终融合分支来预测AlphaMatte（αp）。详情如下：语义估计：使用MobileNetV2[35]架构，通过编码器（即MODNet的低分辨率分支）提取高级语义。细节预测：处理前景人像周围的过渡区域，将I、S(I)和S的低级特征作为输入。同时对其卷积层数、通道数、输入分辨率三个方面进行了优化。语义细节融合（Semantic-DetailFusion）：一个融合语义和细节的CNN模块，它对S(I)进行上采样以匹配其形状与D(I,S(I))，然后S(I)和D(I,S(I))连接起来预测最终的αp。此外，基于上述底层框架，本研究还提出了自监督策略SOC（Sub-ObjectivesConsistency）和帧延迟处理方法OFD（One-FrameDelay）。其中，SOC策略在处理未标注数据时可以保证MODNet架构输出子目标之间的一致性；OFD方法可以在执行纵向键控视频任务时预测平滑视频序列中的Alphamask。如下图：实验评估在进行实验评估之前，研究人员创建了一个摄影人像基准数据集PPM-100（PhotographicPortraitMatting）。它包含100张带有不同背景的精细注释的肖像图像。为了保证样本的多样性，PPM-100还定义了几种分类规则来平衡样本类型，比如是否包括整个人体；图片背景是否模糊；是否持有其他对象。如图：PPM-100中的样本图像具有丰富的背景和人物姿势。因此，它可以被视为一个更全面的基准。那么我们来看一下实验结果：图中显示MODNet在MSE（均方误差）和MAD（均值）上都优于其他没有Trimap的方法。虽然其性能不如使用Trimap的DIM，但如果将MODNet修改为基于Trimap的方法——即以Trimap作为输入，其性能将优于基于Trimap的DIM，这再次说明了MODNet结构体系的优越性。此外，研究人员进一步展示了MODNet在模型规模和执行效率方面的优势。其中，模型大小通过参数总数来衡量，执行效率通过NVIDIAGTX1080TiGPU（输入图像裁剪为512×512）上超过PPM-100的平均参考时间来体现。结果如图：上图显示MODNet的推理时间为15.8ms（63fps），是FDMPA（31fps）的两倍。尽管MODNet的参数略多于FDMPA，但它的性能要好得多。需要注意的是，更少的参数并不意味着更快的推理速度，因为模型可能具有更大的特征图或耗时机制，例如注意力机制（AttentionMechanisms）。总之，MODNet提出了一种简单、快速、有效的实时人像抠图处理方法。该方法仅以RGB图像为输入，实现场景变化下的alphamask预测。此外，由于提出了SOC和OFD，MODNet在实际应用中也较少受到domainshift问题的影响。不幸的是，这种方法无法处理复杂的服装和模糊的运动视频，因为这些都没有包含在训练数据集中。在下一阶段，研究人员将尝试通过添加子目标（例如光流估计）来解决运动模糊下的视频抠图问题。

上一篇：Tep0.6.0Update说说Pytest变量接口用例的3层复用

下一篇：微软发布Windows7-Vista系统11月安全更新ISO镜像下载

AI视频抠图有多厉害：不用“绿屏”，还能实现电影级效果相关文章