图像抠图是指在图像中提取准确的前景。当前的自动方法倾向于不加区别地提取图像中的所有显着对象。在这篇论文中,作者提出了一个称为参考图像抠图(RIM)的新任务,它指的是提取与给定自然语言描述最匹配的特定对象的详细alpha抠图。然而,流行的视觉基础方法都局限于分割级别,这可能是由于缺乏高质量的RIM数据集。为了填补这一空白,作者构建了第一个大规模具有挑战性的数据集RefMatte,通过设计一个全面的图像合成和表达生成引擎来在当前公共高质量抠图前景之上生成合成图像,具有灵活的逻辑和重新标记多元化的特性。RefMatte由230个对象类别、47,500张图像、118,749个表达区域实体和474,996个表达组成,未来可以轻松地进一步扩展。此外,作者还构建了一个由100张自然图像组成的真实世界测试集,并使用人工生成的短语标注来进一步评估RIM模型的泛化能力。首先,定义了两个基于提示和表达式的RIM任务,然后测试了几种典型的图像抠图方法和具体的模型设计。这些结果提供了对现有方法的局限性以及可能的解决方案的实证见解。相信新任务RIM和新数据集RefMatte将为该领域开辟新的研究方向,促进未来的研究。论文题目:ReferenceImageMatting论文地址:https://arxiv.org/abs/2206.05149代码地址:https://github.com/JizhiziLi/RIM1。动机抠图是指在自然图像图中提取前景的软α抠图,有利于视频会议、广告制作、电商推广等各种下游应用。典型的抠图方法可以分为两组:1)基于辅助输入的方法,例如trimap,以及2)无需任何人工干预即可提取前景的自动抠图方法。但前者不适合自动化应用场景,后者一般仅限于特定的对象类别,比如人、动物或所有显着对象。如何对任意对象执行可控的图像抠图,即提取与给定自然语言描述最匹配的特定对象的alpha抠图,仍然是一个悬而未决的问题。语言驱动的任务,如指称表达分割(RES)、指称图像分割(RIS)、视觉问答(VQA)和指称表达理解(REC)已被广泛探索。基于ReferIt、GoogleRefExp、RefCOCO、VGPhraseCut和Cops-Ref等众多数据集,这些领域都取得了很大进展。例如,RES方法旨在分割由自然语言描述指示的任意对象。然而,由于数据集中的低分辨率图像和粗糙的掩码注释,获得的掩码仅限于没有精细细节的分割级别。因此,它们不太可能用于需要对前景对象进行详细的alpha抠图的场景。为了填补这一空白,作者在本文中提出了一项名为“ReferringImageMatting(RIM)”的新任务。RIM是指在图像中提取与给定自然语言描述最匹配的特定前景对象以及详细的高质量alpha抠图。与上述两种抠图方法解决的任务不同,RIM旨在对语言描述指示的图像中的任意对象进行可控的图像抠图。在工业应用领域具有实际意义,为学术界开辟了新的研究方向。为了促进RIM的研究,作者构建了第一个名为RefMatte的数据集,该数据集由230个对象类别、47,500张图像和118,749个表达区域实体以及相应的高质量alpha遮罩和474,996种表达组合??组成。具体来说,为了构建这个数据集,作者首先重新访问了许多流行的公共抠图数据集,例如AM-2k、P3M-10k、AIM-500、SIM,并手动标记每个对象以进行仔细检查。作者还采用各种基于深度学习的预训练模型为每个实体生成各种属性,例如人类性别、年龄和服装类型。然后,作者设计了一个集成的构图和表情生成引擎,以生成具有合理的绝对和相对位置的合成图像,同时考虑到其他前景物体。最后,作者提出了几种形式的表达逻辑来利用丰富的视觉属性来生成不同的语言描述。此外,作者提出了一个真实世界的测试集RefMatte-RW100,由100张包含不同对象和人类注释表达式的图像组成,以评估RIM方法的泛化能力。上图显示了一些示例。为了对相关任务中的最新方法进行公平和全面的评估,作者根据语言形式在两种不同的设置下在RefMatte上进行了基准测试,即基于提示的设置和基于表达式的设置说明。由于代表性方法是专门为分割任务设计的,因此将它们直接应用于RIM任务时仍然存在差距。为了解决这个问题,作者提出了两种为RIM定制它们的策略,即1)在CLIPSeg之上精心设计了一个名为CLIPmat的轻量级抠图头,以生成高质量的alpha抠图结果,同时保持其端到端的可训练性管道;2)提供了几种独立的基于粗略图像的抠图方法作为后期细化器,以进一步改善分割/匹配结果。广泛的实验结果1)证明了所提出的RefMatte数据集对RIM任务研究的价值,2)确定了语言描述形式的重要作用;3)验证所提出的剪裁策略的有效性。这项研究的主要贡献有三个。1)定义一个名为RIM的新任务,旨在识别和提取与给定自然语言描述最匹配的特定前景对象的alpha抠图;2)建立第一个大规模数据集RefMatte,由47,500张图像和118,749个表情区域实体组成,具有高质量的alpha抠图和丰富的表情;3)在两种不同的设置下使用两种RIM定制的RefMatte策略对代表性的最先进方法进行基准测试并获得了一些有用的见解。2.方法在本节中,我们将介绍构建RefMatte的管道(第3.1节和第3.2节),以及任务设置(第3.3节)和数据集的统计信息(第3.5节)。上图显示了RefMatte的一些示例。此外,作者构建了一个真实世界的测试集,其中包含100张带有手动标记的丰富语言描述注释的自然图像(第3.4节)。2.1抠图实体的准备为了准备足够多的高质量抠图实体来帮助构建RefMatte数据集,作者重新审视了目前可用的抠图数据集,以筛选出符合要求的前景。然后手动标记所有候选实体的类别,并使用多个基于深度学习的预训练模型对其属性进行注释。预处理和过滤由于图像抠图任务的性质,所有候选实体都应该是高分辨率的,并且在alpha抠图中具有清晰和精细的细节。此外,数据应该通过开放许可公开提供,并且没有隐私问题,以促进未来的研究。对于这些要求,作者采用了来自AM-2k、P3M-10k和AIM-500的所有前景图像。具体来说,对于P3M-10k,作者过滤掉了具有两个以上粘性前景实例的图像,以确保每个实体仅与一个前景实例相关联。对于SIM、DIM和HATT等其他可用数据集,作者过滤掉了人类实例中具有可识别面孔的前景图像。作者还过滤掉了那些低分辨率或低质量alpha抠图的前景图像。最终实体总数为13,187。对于后续合成步骤中使用的背景图像,作者选择了BG-20k中的所有图像。注释实体的类别名称由于以前的自动抠图方法倾向于从图像中提取所有显着的前景对象,因此它们不会为每个实体提供特定的(类别)名称。但是,对于RIM任务,需要一个实体名称来描述它。作者用入门级类别名称标记每个实体,代表人们对特定实体使用的最常见名称。在这里,采用了半自动策略。具体来说,作者使用带有ResNet-50-FPN主干的MaskRCNN检测器来自动检测和标记每个前景实例的类名,然后手动检查和纠正它们。RefMatte共有230个类别。此外,作者使用WordNet为每个类别名称生成同义词以增强多样性。作者手动检查同义词,并用更合理的替换其中一些。标注实体的属性为了保证所有实体都具有丰富的视觉属性以支持形成丰富的表情,作者对所有实体标注了人体实体的颜色、性别、年龄、衣着类型等多种属性。作者还采用半自动策略来生成此类属性。为了生成颜色,作者将前景图像的所有像素值聚类,找到最常见的值,并将它们与webcolors中的特定颜色匹配。对于性别和年龄,作者使用预训练模型。根据预测的年龄来定义年龄组是常识。对于衣服类型,作者采用了预训练模型。此外,受前景分类的启发,作者为所有实体添加了显着或不显着以及透明或不透明的属性,因为这些属性在图像抠图任务中也很重要。最终,每个实体至少有3个属性,而人类实体至少有6个属性。2.2图像合成和表情生成作者基于上一节收集的抠图实体,提出了图像合成引擎和表情生成引擎来构建RefMatte数据集。如何将不同的实体排列成合理的合成图像,同时生成语义清晰、语法正确、丰富、花哨的表达来描述这些合成图像中的实体,是构建RefMatte的关键,也是具有挑战性的。为此,作者定义了六种位置关系,用于在合成图像中排列不同的实体,并利用不同的逻辑形式来生成适当的表示。ImageCompositionEngine为了保持实体的高分辨率,同时将它们以合理的位置关系排列,作者为每张合成图像使用了两个或三个实体。作者定义了六种位置关系:左、右、上、下、前、后。对于每个关系,首先生成前景图像,然后通过alpha混合将它们与来自BG-20k的背景图像合成。具体来说,对于左、右、上和下关系,作者确保前景实例中没有遮挡以保留其细节。对于上下文,前景实例之间的遮挡是通过调整它们的相对位置来模拟的。作者准备了一袋候选词来表示每个关系。表达式生成引擎为了给合成图像中的实体提供丰富的表达式,作者从定义的不同逻辑形式的角度为每个实体定义了三个表达式,分别表示属性、表示类别名称、表示引用实体和相关实体之间的关系三个具体表达式如上文(a)、(b)和(c)所示。2.3Dataset拆分和任务设置Dataset拆分数据集共有13187个抠图实体,其中11799个用于构建训练集,1388个用于测试集。然而,训练集和测试集的类是不平衡的,因为大多数实体属于人类或动物类。具体而言,在训练集中的11,799个实体中,有9,186个人类、1,800个动物和813个物体。在1,388个实体的测试集中,有977个人类、200个动物和211个物体。为了平衡类别,作者复制了实体以达到5:1:1的人:动物:对象比例。因此,训练集中有10,550个人、2,110只动物和2,110个物体,测试集中有1,055个人、211只动物和211个物体。为了为RefMatte生成图像,作者从训练或测试拆分中挑选了一组5个人、1只动物和1个物体,并将它们输入图像合成引擎。对于训练或测试拆分中的每个组,作者生成20个图像以形成训练集,并生成10个图像以形成测试集。左/右:上/下:前/后关系设置为7:2:1的比例。每个图像中的实体数设置为2或3。对于上下文,作者总是选择2个实体以保持每个实体的高分辨率。经过这个过程后,有42,200张训练图像和2,110张测试图像。为了进一步增强实体组合的多样性,我们在所有候选对象中随机选择实体和关系,形成另外2800张训练图像和390张测试图像。最终,训练集中有45,000张合成图像,测试集中有2,500张图像。任务设置为了对给出不同形式的语言描述的RIM方法进行基准测试,作者在RefMatte中设置了两个设置:实体。比如上图中的提示符是flower、human、alpaca;基于表达式的设置:该设置中的文本描述是上一节表达式中生成的表达式,可选择基本表达式、绝对位置表达式和相对位置表达式。上图中也可以看到一些示例。2.4真实世界测试集由于RefMatte是基于合成图像构建的,因此它们与真实世界图像之间可能存在领域差距。为了研究在其上训练的RIM模型对真实世界图像的泛化能力,作者进一步建立了名为RefMatte-RW100的真实世界测试集,该测试集由100张真实世界的高分辨率图像组成,每幅图像都有是2到3个实体。然后,作者按照第3.2节中相同的三个设置对他们的表达式进行注释。此外,作者在注释中添加了一个自由表达。对于高质量的alpha剪切标签,作者使用图像编辑软件生成它们,例如Adob??ePhotoshop和GIMP。RefMatte-RW100的一些示例如上图所示。2.5RefMatte数据集和RefMatte-RW100测试集的统计数据作者计算了RefMatte数据集和RefMatte-RW100测试集的统计数据,如上表所示。对于基于提示的设置,由于文本描述是入门级类别名称,作者删除了属于同一类别的多个实体的图像,以避免歧义推断。因此,在此设置中,训练集中有30,391张图像,测试集中有1,602张图像。alphamattes的数量、文本描述、类别、属性和关系分别显示在上表中。在基于提示的设置中,平均文本长度约为1,因为每个类别通常只有一个词,而在基于表达式的设置中它要大得多,即在RefMatte中约为16.8,在RefMatte-RW100中约为1为12作者还在上图中的RefMatte中生成了hints、properties、relations的词云。可以看出,数据集有很大一部分是人类和动物,因为它们在图像抠图任务中非常常见。RefMatte中最常见的属性是阳刚、灰色、透明和显着,而关系词则更为平衡。3.实验由于RIM和RIS/RES之间的任务差异,直接将RIS/RES方法应用于RIM的结果并不乐观。为了解决这个问题,作者提出了两种为RIM定制它们的策略:1)添加消光头:在现有模型之上设计轻量??级消光头,以生成高质量的alpha消光,同时保持端到端的可训练管道。具体来说,作者在CLIPSeg之上设计了一个轻量级抠图解码器,称为CLIPMat;2)Usingmattingrefiner:作者使用了基于coarseimages的separatemattingmethod作为post-refiner,进一步提升了上述方法的segmentation/matting结果。具体来说,作者使用输入图像和粗略图像训练GFM和P3M作为抠图细化器。作者在RefMatte测试集的基于提示的设置上评估了MDETR、CLIPSeg和CLIPMat,并在上表中显示了定量结果。可以看出,与MDETR和CLIPSeg相比,CLIPMat的性能最好,有或没有matte精炼器,验证了添加matteheader为RIM任务自定义CLIPSeg的有效性。此外,使用两种遮罩细化器中的任何一种都可以进一步提高三种方法的性能。作者还在RefMatte测试集和RefMatte-RW100的基于表达式的设置下评估了这三种方法,并在上表中显示了定量结果。CLIPMat再次展示了在RefMatte测试集上保留更多细节的良好能力。在RefMatte-RW100上进行测试时,单阶段方法(如CLIPSeg和CLIPMat)落后于两阶段方法(即MDETR),这可能是由于MDETR的检测器在理解跨模态语义方面具有更好的能力。为了研究提示输入表单的效果,作者评估了不同提示模板的性能。除了使用的传统模板外,作者还添加了更多专门为图像抠图任务设计的模板,例如
