为了解决在线学习带来的灾难性遗忘问题,北京大学等研究机构提出利用梯度调节模块(GRM),通过训练权重在特征重构的效果和像素的空间位置先验,调整反向传播时各权重的梯度,增强模型LNSNet超像素分割模型的记忆力。该研究已被CVPR2021录用,主要由朱雷和佘琪共同探讨和开发,并得到北京大学分子影像实验室卢彦野老师的指导。论文链接:https://arxiv.org/abs/2103.10681项目开源代码:https://github.com/zh460045050/LNSNet实验室链接:http://www.milab.wiki1.简介图像分割是计算机视觉它是AI的基础任务之一,在自动驾驶、安全保卫、智能诊疗等任务中有重要应用。超像素分割作为图像分割的一个分支,其目的是根据图像的颜色信息和空间关系信息,将图像高效地分割成远远超过目标数量的超像素块,从而尽可能多地保留图像中的所有目标。可能的。边缘信息的目的,以便更好地辅助后续的视觉任务(如目标检测、目标跟踪、语义分割等)。基于传统机器学习的超像素分割方法将超像素分割看成一个像素聚类问题,通过限制搜索空间策略(如SLIC、SNIC、MSLIC、IMSLIC等)来提高超像素的生成效率。然而,这些方法大多依赖RGB或LAB颜色空间信息对像素进行聚类,缺乏对高层信息的考虑。虽然有些超像素分割方法(LRW、DRW、ERS、LSC)通过构建图模型,根据四邻域或八邻域节点的相似关系,将原来的5维颜色和空间信息丰富到N维,以获得更好的特征表示。然后使用随机游走或谱聚类等方法进行超像素分割,但这些方法运行效率较差。使用卷积神经网络进行超像素分割(SEAL、SSN、S-FCN)大多摒弃了传统超像素方法的无监督广义分割模式,而是使用大量区域级分割标签进行离线卷积神经网络。训练指导超像素的生成。这种基于注释的训练模式导致生成的超像素通常包含更多高级语义信息,从而限制了超像素分割方法的通用性和灵活性。此外,这种超像素分割模式不能很好地应用于缺乏分割标注的视觉任务,如目标跟踪、弱监督图像分割等。最近,有工作(RIM)利用深度聚类模型无监督地使用神经网络进行广义超像素分割。但是这种方法需要根据每张输入图像训练一个特定的卷积神经网络进行像素聚类,因此难度极大大大增加了超像素分割的计算时间。因此,为了保证超像素分割既能更好地利用深度学习进行有效的特征提取,又能兼顾传统超像素分割方法高效、灵活、迁移性强的特点,本研究从超像素分割的角度来看待超像素分割。持续学习的观点。问题,并提出了一种新型的超像素分割模型,可以更好地支持无监督在线训练模式(onlinetraining)。考虑到超像素分割作为一个广义的分割问题需要更加关注图像的细节信息,该模型摒弃了其他超像素分割网络所采用的深度复杂的卷积神经网络结构,而选择了相对轻量级的特征提取模块(FEM),并提出了一种通过自动选择种子节点的非迭代聚类模块(NCM),避免了超像素分割方法中聚类中心的迭代更新,大大降低了超像素分割的空间复杂度和时间复杂度(比近20倍)SSN参数和快近4倍的操作时间)。为了解决在线学习带来的灾难性遗忘问题,该模型使用梯度调节模块(GRM),通过训练权重对特征重建的影响和像素的空间位置先验,在反向传播过程中调整每个权重的权重.梯度增强模型的记忆力和泛化能力。2.训练框架设计一般来说,对特定图像Ii进行广义超像素分割的本质可以看作是该图像域中的像素聚类任务Ti。因此,对于一个包含n张图像的图像集I=,在该图像集上的超像素分割任务可以看作是一个任务集T=。在这种情况下,我们可以将当前基于深度学习的超像素分割方法看作以下两种策略:①基于深度聚类模式的RIM超像素分割方法可以看作是一种单任务学习策略。如图2B所示,该策略为任务集中的每个特定任务Ti找到一个最优参数空间。因此,对于整个任务集T,这个任务需要训练得到n个不同的参数空间来提取聚类特征。这种方式大大增加了模型训练和存储的消耗,导致计算效率极低。②其他超像素分割网络(SEAL、SSN、S-FCN)的训练模式可以看作是一种多任务学习策略。如图2A所示,该策略在分割标注的指导下为整个任务集T获得了一个通用的参数空间。虽然该策略只需要获取一个参数空间,但是该方法仍然需要离线模型训练,训练过程需要维护整个图像集I。此外,这些方法对分割标签的需求也导致它们过于关注提取更高层次的语义特征,而不是关注对广义超像素分割更重要的低层次颜色特征和空间特征的融合,这限制了卷积神经网络的迁移。性和灵活性。与这两种方法不同,本文希望利用连续学习的策略来保证超像素分割方法既能利用卷积神经网络进行更有效的特征提取,又能兼顾效率、灵活性和强迁移性。传统的超像素分割方法。特征。如图2C所示,本文采用的连续学习策略保证了通过对特定图像Ii逐张训练得到一个适合整个任务集T的通用参数空间,这就需要卷积神经网络对历史任务有记忆能力,即解决持续学习中的灾难性遗忘问题。该模型的具体训练过程如图3所示。在第i轮的训练过程中,我们只考虑单个任务Ti来拟合模型。其中,特征提取模块FCM用于生成聚类所需的聚类特征,非迭代聚类模块NCM再利用聚类特征进行聚类得到超像素分割结果。梯度调整模块GRM用于在反向传播过程中调整FCM参数的梯度,保证模型能够更好的记住历史任务Ti-1,Ti-2,...,T1。3.模型结构和损失函数设计本文提出的模型结构如图3所示,认为超像素分割作为一种广义的分割问题,更注重图像细节信息和空间信息的融合。因此,该模型在特征提取模块FEM中部分摒弃了其他超像素分割网络中使用的深度复杂的卷积神经网络结构(图.提取过程中图像细节信息的丢失。具体来说,我们首先concat输入图像颜色信息RGB/LAB和空间信息XY得到一个5维的输入张量X。然后我们使用三个不同dilatedratio(d=1,3,5)的dilatedconvolutions进行多尺度特征提取,使用两个3x3的卷积模块进行multi-scalefeaturefusion,andthenobtaintheclusteringOutputfeaturemapZ:接下来,为了进一步提高流程的运行效率,我们提出了一个非迭代的聚类模块NCM(图3C)。通过生成的水平和垂直坐标偏移种子节点相对于网格中心,种子节点在保证空间紧凑性强的前提下,预测对应超级图像的种子节点block,根据其与各像素聚类特征的T相似度进行像素聚类。该模块首先将图像按照超像素个数划分为网格,然后对属于同一网格的位置进行空间池化操作,得到空间大小等于超像素个数的低分辨率特征图为网格特征Zk。然后,我们将Zk输入输出通道为2的1x1卷积得到种子节点相对于网格中心的水平和垂直偏移△r,△c,并将其叠加到网格中心坐标Sc上即为最终的超像素种子node:随后,我们使用T分布核函数计算种子节点特征与其余像素特征的相似度,并以此为基础得到最终的像素聚类结果L,即输出超像素块.最后,梯度调节模块GRM(图3B)首先使用像素聚类特征重建输入图像及其每个像素的空间信息。其中,梯度自适应层(GAL)根据重建结果计算FEM中每个通道对当前任务的拟合度g(W^r)。具体来说,我们分别根据重构权重W^r来判断每个Z中的特征通道。颜色信息和空间位置还原的重要性,并用两者的乘积来表示通道的拟合度:随后,在训练过程中,GAL维护记忆矩阵m来记住每个通道在预训练中的拟合度-订单任务。然后在反向传播过程中,我们根据前面任务的重要性,构造每个通道对应的FEM中的权重矩阵的调整率φ^a来调整每个通道对应的权重的梯度:调整率可以保证对历史任务拟合度较好的权值梯度较小,避免前一个任务拟合度高和当前任务拟合度低的权值在反向传播过程中被污染,从而防止FEM过度拟合当前任务会导致灾难性地忘记以前的任务。此外,GRM还利用梯度双向层(GBL),使光滑位置超像素块借助边缘先验信息更注重空间信息,而纹理丰富的位置超像素块可以更注重颜色信息以减少冗余超像素块。像素块和增强边缘拟合的目的。模型训练的损失函数由两部分组成,第一部分是重建损失Lr。这部分使用MSEloss来保证聚类特征可以重构回原始图像和每个像素对应的空间位置信息,从而使聚类特征更好的融合空间信息和颜色信息。第二部分是聚类损失Lc,它为DEC聚类损失增加了空间距离约束。该约束可以在保证每个超像素块中像素类相似度大的情况下,使每个像素更有可能被分配到前k个空间距离最近的种子节点所在的超像素,从而保证超像素块在分割结果的紧凑程度。4.实验总的来说,我们的方法比SOTA的超像素分割方法具有更高的效率和可迁移性。首先,我们在BSDS数据集上进行了实验,可以看出所提出的超像素分割策略远高于其他无监督超像素分割方法(包括传统方法SLIC、LSC、ERS、RIM)。此外,与依赖分割标签的有监督超像素分割方法SSN相比,由于我们的方法在训练过程中无法感知高层语义信息,分割结果会产生相对较多的冗余超像素块,这导致了我们的分割精度方法较低,因此在ASA和F指标上略低于SSN。然而,这一特性也使得我们的模型在一些复杂场景中具有更好的分割召回率和更好的模糊边缘拟合,因此我们的方法可以获得更高的BR指标。此外,由于使用了更轻量级的特征提取器和非迭代聚类模式,我们的模型在时间和空间复杂度上远低于其他基于卷积神经网络的超像素分割方法。此外,我们还将在BSDS数据集上训练的超像素分割模型应用到医学影像实验中,以测试每个超像素分割模型的迁移情况。可以看出,无论是眼底荧光素对比中的眼底血管分割数据集(DRIVE)还是OCT图像中的视网膜层分割数据集(DME),我们的模型都比其他基于卷积神经网络的分割模型具有更好的迁移。性别。【责任编辑:张艳妮电话:(010)68476606】
