当前位置: 首页 > 科技观察

完美抠图王冰冰!字节实习生开发的AI实现4K60帧视频实时抠图

时间:2023-03-22 00:27:43 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。看着这蓬松的头发和帅气的动作,你以为你是在绿幕前拍大片吗?不不不这其实是AI使用实时视频抠图的效果。没想到,实时视频抠图现在可以细致到每一根头发。切换到alpha通道再看一眼。多芬就不用说了(手动狗头)。这是字节跳动实习小哥的最新研究成果:实时高分辨率视频抠图方法。无需任何辅助输入,将视频丢给这个叫RVM的AI,分分钟帮你高精度剪出人像,把背景替换成可任意再加工的绿屏。不相信这么顺利?我们通过在线演示自己进行了尝试。相比之下,在线会议软件中的抠图,一旦头发遮住了脸,人就会消失……头发明显模糊了。难怪网友直言:真想不到你是怎么把这个AI塞进手机里的。目前,该论文已入选WACV2022,大家也可以尝试一下。目前RVM已经在GitHub上开源,并给出了两种试用方式:于是我们赶紧上手试用。先来看看效果:首先,我们来试试难度不高的东西。对于画面中人物基本不动的情况,RVM可以说表现的非常好,和手动抠图几乎没有区别。现在,王冰冰进入东森并不违法。于是脑洞大开,变得轻松多了……咳咳,言归正传。当角色移动更多时会发生什么?对于多人舞蹈视频,RVM也表现不错。就算它四处走动,甩动头发,也不影响它的镂空效果。只有当人被遮挡时才会出现瑕疵。与前辈方法MODNet相比,确实有很大的进步。但是,我们也发现,如果视频的背景很暗,会影响RVM的性能。比如在背景光这么暗的情况下,抠图的效果就很不理想。可以看到,博主小哥的头发完全是毛茸茸的。而且身体的界限不够清晰。所以,如果你想给自己拍视频,一定要选择光线充足的场景。利用时间信息,这样的“魔法”是如何实现的呢?照例先看看论文吧~其实现在视频抠图相关的算法并不少见,大多都是采用将视频中的每一帧作为独立图像的方法来实现抠图。与此不同的是,在这篇论文中,研究人员构建了一个循环架构,利用视频的时间信息,在时间一致性和抠图质量方面取得了显着改善。从上图可以看出,RVM的网络架构包括3部分:特征提取编码器,用于提取单帧特征;循环解码器,用于汇总时间信息;深度引导滤波(DGF)模块,用于高分辨率上采样。其中,循环机制的引入使得AI能够在连续的视频流中进行自我学习,从而学习到哪些信息需要保留,哪些信息可以遗忘。具体来说,循环解码器采用多尺度ConvGRU来聚合时间信息。它的定义如下:在这个编解码器网络中,AI会完成高分辨率视频的下采样,然后使用DGF对结果进行上采样。此外,研究人员还提出了一种新的训练策略:同时使用抠图和语义分割目标数据集来训练网络。这样做的好处是:首先,人像抠图与人像分割任务密切相关。AI必须学会从语义上理解场景,以便稳健地定位角色的主题。其次,大多数现有抠图数据集仅提供真实的alpha通道和前景信息,因此必须合成背景图像。但是,前景和背景的光线往往不同,影响了构图的效果。语义分割数据集的引入可以有效防止过拟合。最后,语义分割数据集有更丰富的训练数据。经过这次培训,RVM相比其前辈有何改进?从效果对比中可以明显感受到:另外,与MODNet相比,RVM更轻量、更快。从下表可以看出,RVM在1080p视频上的处理速度最快,在512×288上比BGMv2稍慢,在4K视频上比MODNetwithFGF慢。研究人员分析,这是因为RVM除了alpha通道外,还预测了前景。更直观的数据是,在NvidiaGTX1080Ti上,RVM能够以76FPS的速度处理4K视频,以104FPS的速度处理高清视频。字节跳动实习生本论文由林山川在字节跳动实习期间完成。毕业于华盛顿大学,获得学士和硕士学位,曾在Adobe、Facebook等大公司实习。2021年3月至6月,林山川将在字节跳动实习。八月份刚加入微软。事实上,林山川此前曾凭借其AI抠图方法获得CVPR2021最佳学生论文荣誉奖。以第一作者发表论文《Real-Time High-Resolution Background Matting》,提出BackgroundMattingV2方法。该方法能够处理30FPS的4K视频和60FPS的高清视频。值得一提的是,BackgroundMatting系列方法不止一次获得CVPR。此前,第一代BackgroundMatting被CVPR2020收录,两篇论文的通讯作者为华盛顿大学副教授IraKemelmacher-Shlizerman。研究方向为计算机视觉、计算机图形学、AR/VR等。此外,本文第二作者杨林杰是字节跳动的研究科学家。毕业于清华大学,获学士学位,获香港中文大学博士学位。顺便说一句,除了在Colab上试用,你也可以在网页版上实时体验这个AI的效果,取地址:https://peterl1n.github.io/RobustVideoMatting/#/demoGitHub地址:https://github.com/PeterL1n/RobustVideoMatting论文地址:https://arxiv.org/abs/2108.11515参考链接:https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/