当前位置: 首页 > 科技观察

抠图细如毛发,Adobe处理6000×6000张高分辨率图像

时间:2023-03-20 14:35:46 科技观察

很多深度学习的方法抠图效果都不错,但无法很好地处理高分辨率图像。在现实世界中,需要使用抠图技术的图像通常是分辨率为5000×5000甚至更高的高分辨率图像。如何突破硬件限制,将抠图方法应用于高分辨率图像?来自UIUC、AdobeResearch和俄勒冈大学的研究人员提出了一种新方法。抠图是图像和视频编辑与合成中的一项关键技术。通常,深度学习方法将整个输入图像和关联的trimap作为输入,并使用卷积神经网络来推断前景蒙版(alphamatte)。这种方法在图像抠图领域取得了SOTA结果。然而,由于硬件限制,这些方法在实际抠图应用中可能会失败,因为现实世界中要抠图的大多数输入图像都是高分辨率的。最近,来自伊利诺伊大学香槟分校(UIUC)、AdobeResearch和俄勒冈大学的研究人员提出了一种名为HDMat的新方法,这是第一种用于高分辨率输入图像的深度学习抠图方法。早在2017年,Adobe等机构就发表论文《Deep Image Matting》,利用大规模数据集和深度神经网络学习图像的自然结构,进一步分离图像的前景和背景。该论文的第一作者徐宁是这篇论文的第二作者。只是这次研究人员将注意力转向了高分辨率图像。论文地址:https://arxiv.org/pdf/2009.06613.pdf具体来说,HDMatt方法采用新的模块设计,用基于patch的crop-and-stitch方法裁剪出高分辨率的输入图像Graph,然后求解不同补丁之间的上下文依赖性和一致性。鉴于最初的基于补丁的推理方法单独计算每个补丁,本研究提出了一个新模块,即CrossPatch上下文模块(CPC),它对给定trimap指导的跨补丁上下文依赖性进行建模。大量实验证明了该方法的有效性及其对高分辨率输入图像的必要性。HDMatt方法在Adob??eImageMatting和AlphaMatting基准测试中实现了新的SOTA性能,并在更逼真的高分辨率图像上实现了卓越的结果。下图显示了HDMatt方法与之前最先进的方法ContextNet在处理高分辨率图像时的比较:ContextNet分别应用了下采样(DS)和裁剪(C)策略。从图中可以看出,DS导致细节模糊,clipping导致patch间不一致。本研究提出的HDMatt方法解决了这两个缺陷,抠图效果最接近真实值(上图c),说明该方法可以很好地拟合精细细节。本研究的主要贡献是:这是第一个基于深度学习的高分辨率图像抠图方法,使得在硬件资源约束下在现实世界中进行高质量的HR抠图成为现实。提出了一种新颖的模块化CPC来捕获补丁之间的远程上下文依赖关系。在CPC内部,新提出的Trimap-GuidedNon-Local(TGNL)操作旨在有效地传播来自参考补丁不同区域的信息。在定量和定性实验方面,HDMatt方法在Adob??eImageMatting(AIM)、AlphaMatting基准和真实高分辨率图像数据集上实现了新的SOTA性能。HDMatt方法为了解决高分辨率图像的抠图问题,本研究提出HDMatt方法,首先将输入图像和trimap裁剪成patch,然后估计每个patch的alpha值。仅使用来自一个补丁的信息会导致信息丢失和跨不同补丁的不一致预测。因此,本研究提出了一种新的交叉补丁上下文模块(CPC)模块,以有效利用每个查询补丁的交叉补丁信息。最后将每个patch的估计alpha值拼接起来输出整幅图像的最终前景mask。下图2展示了HDMatt方法的整体框架:下图3展示了CPC模块的工作流程:ExperimentalAdob??eImageMattingbenchmarkdataset下表1展示了HDMatt方法与其他SOTA方法在Adob??eImageMatting测试上的性能对比设置结果。HDMatt方法在所有评估指标上都优于其他方法。研究人员还比较了这些方法(包括IndexNet和ContextNet)的实际效果,如下图4所示:可以看出,HDMatt方法可以更好地处理较大的未知区域(即前景或背景信息很少的区域)))。AlphaMattingBenchmarkDataset表2列出了在AlphaMatting基准数据集上SAD性能最好的四种方法,HDMatt方法在具有较大或用户trimaps的图像上表现良好。这进一步证实了当trimap中存在大量未知区域时,HDMatt方法可以有效捕获长程上下文依赖。下图是不同方法在AlphaMatting测试集上的抠图结果,从左到右分别是输入图像、Trimap、AdaMatting[1]、SampleNet[35]、GCAMatting[24]和HDMatt。从图中可以看出,最右边一列HDAtt方法的抠图效果最好。真实图像除了这些数据集,研究人员还在线收集了一些高达6000×6000的高分辨率图像,并在真实图像上进行了测试。下面的图5演示了IndexNet、ContextNet和HDAtt方法在使用整张图像作为输入时的性能。从结果中可以看出,HDMatt方法能够提取更精细和更精确的细节,同时推断速度更快。然而,这种方法仍然会丢失一些最精细的细节。Context-Patch-BasedAttentionVisualization下面的图7显示了基于给定查询patch上选定的上下文patch的注意力图:ControlVariableStudy下表显示了控制变量研究的结果: