摘要:解决深度学习对数据的依赖问题,降低数据标注成本成为业界研究热点。本文将介绍以下研究方向:半监督/弱监督学习、数据合成、主动学习、自监督。01.Introduction得益于深度学习的发展,近年来许多计算机视觉任务都取得了不错的效果。然而,现有的深度学习算法大多是监督学习算法,依赖于大量人工标注的训练数据,标注数据非常耗费人力。因此,解决深度学习对数据的依赖问题,降低数据标注成本成为业界研究热点。本文选取相关领域的一些论文,将介绍以下几个方向:半监督/弱监督学习;数据综合;主动学习;自我监督。02.半监督/弱监督学习半监督学习是一种结合了监督学习和无监督学习的学习方法。半监督/弱监督学习使用大量未标记数据/弱标记数据,同时使用一小部分标记数据来训练机器学习模型。其预期结果是,通过利用大部分未标记数据/弱标记数据,获得的模型优于仅使用标记数据训练的模型。弱标签数据的数据标签信息较少,标注难度较小。例如,在目标检测任务中,通常需要标注目标的类别和坐标,而弱标注数据只标注了图像中的目标类别,没有坐标信息。论文[1]是一篇半监督方向的图像分类论文。实验主要在手写图像数据集上进行,包括MNIST、CIFAR等。图1是论文方法的架构。如图,图的左上角和左下角分别是未标注的数据集U和标注的L,中间的橙色模块是论文的神经网络,右边是数据筛选模块。过程如下:先用带标签的数据集L训练初始模型M1,然后用M1在无标签数据集U上进行推理,U中的每张图像都会得到一个分类结果和对应的置信度S。在S上筛选U中的样本,将分类置信度高的样本U1和相应的推理结果作为GT,将L=L+U1加入到标记样本中,不断训练模型得到M2.重复上述过程后,训练集数量不断增加,模型性能逐渐提升。最终模型M的性能远优于仅使用L训练的模型M1。图1论文[2]是一篇在字符级文本检测领域使用半监督和弱监督学习的论文。思路和[1]类似,也是通过增量学习来提升模型。如图2所示,利用预训练的字符集检测模型对左侧未标注数据集U进行推理,得到检测结果D。图2中间的上部和下部模块分别代表半监督和弱监督筛选模块。半监督模块通过置信度阈值剔除D中的非标准检测框。弱监督模块具有“word-level”标签框信息,因此剔除不在“word-level”标签框中的字符检测框。然后使用两个模块的输出重新训练模型。图2中的论文[3]是一篇GAN(generativeadversarialnetwork)文章,利用检测框标注信息做分割任务。如图[3]所示,左边是带有检测框信息的图像,中间是generator生成器,右边是判别器discriminator。图3中间的上分支裁剪出原图labelbox外的背景区域,下分支从原图裁剪出labelbox的目标区域。中间的generator在原始图像labelbox中生成mask,然后将mask与上下分支Lu的两幅图像组合成fakeimage,discriminator需要识别图像是真实的还是合成的。通过生成对抗的方法,最终训练出一个好的生成器分割网络,整个过程只使用检测框标注信息的监督,没有分割标注信息的参与。图303.数据合成由于监督学习无法避免模型对标注数据的依赖,自动生成数据也是一种降低人工成本的方式。合成数据的方式有很多种,包括人工设计规则、使用GAN网络生成等。论文[4]提出了一种基于人工设计规则的合成数据方法,用于文本识别任务。合成图像样本由前景图像层、背景图像层和边缘/阴影层组成。合成过程分为六个步骤:字体渲染:随机选择字体,将文字渲染到前景层;border/shadowrendering:文本从前景层生成边缘阴影等;基础着色:给三层着色;投影失真:随机扭曲前景和阴影;自然数据混合:将图像与真实场景图像混合;noise:加入高斯噪声等。图4使用GAN进行域自适应,合成数据也是一个研究方向。主要关注点包括源域和目标域的外观和几何形状的相似性。论文[5]同时考虑两个相似性来产生对抗。图504.主动学习帮助不同的模型改进现有模型。就像人的学习过程一样,只学习小学知识的人很难突破初中知识的瓶颈。主动学习的出发点与此类似,就是从未标注的数据集中选出对模型改进最有帮助的子集,交给人工标注。因此,在用相同数据量(相同标记成本)标记样本的情况下,使用主动学习策略选择样本训练的模型接近最优。主动学习的过程如图6所示,左边标注数据集训练得到模型,模型在未标注数据集上推理,将显着性较大的标注样本推送到人工标注,然后新标记的数据集重新训练并提升模型。图6主动学习领域定义了未标记数据可以帮助改进模型的指标,包括不确定性、差异性和多样性。不确定性是指现有模型对样本的推理置信度不够高。差异是指新样本与标记数据集之间的差异。多样性意味着新样本足够多样化。在分类问题中,论文[6]是分类任务中的主动学习过程,根据模型为输入图像生成的补丁预测的方差和不确定性来衡量。论文[7]强调检测任务中检测框的置信度只代表分类置信度,不具有位置置信度。因此,提出补充positionconfidence来评估检测框的优劣:两级检测器中的RPN和最终输出框。差值(图7),数据扩容后的检测框与原图检测框的差值。图7中的论文[8]指出,现有的主动学习模型大多是任务特定的,因此提出了任务不可知的样本选择策略,并在分类和检测等任务上进行了实验验证。如图8所示,论文提出了一个losspredictionbranch,可以添加到主任务学习网络中,用于预测未标记数据集的loss,将loss较大的样本表面模型预测为具有较高的不确定性。Loss预测分支在训练阶段的监督信息是骨干任务学习网络的损失。图805.Self-supervisedSelf-supervisedlearning是近来学术界研究热点的一种无监督学习。它利用未标记数据本身的结构或特征,人工构建标签来监督网络学习。通常自监督学习模型并不直接应用于目标任务,而是作为下游任务的预训练模型。论文[9]是自监督学习的新发展。使用本文的方法得到的无监督模型,在许多下游任务fine-tune之后,优于使用监督学习作为预训练模型fine-tune的预训练模型。图9(c)是MoCo的算法图,(a)(b)代表之前的相关方法。Contrastivelearning是MoCo的出发点,即对输入样本进行扩展得到扩展集,然后将图中左侧的encoder输入,右侧的encoder输入或其中的样本,其中有其他样本互不相同,通过contrastiveloss优化网络对同一个样本源的输入编码相似的特征,不同样本源的输入编码不同的特征。在这个过程中,有两个关键点:计算量不能太大,否则计算资源不允许;右边编码器提取的特征k,应该尽可能由最新的编码器得到。图9(a)分别用mini-batch中的一个样本作为剩余样本,优点是每个mini-batch中的k都是最新的,缺点是k的个数太少,受mini的限制-批。图9(b)将所有样本编码到内存库中并定期更新它们。优点是k的个数可以无限,缺点是k的特征不一定是最新的。MoCo利用队列中存储的特征,将最新的样本特征送入队列,移除队列尾部的特征,队列大小可控,k基本由编码器在最新一期提取。图906.总结降低数据标注的成本已经成为深度学习领域无法回避的研究课题。一方面,合成数据,让机器自动标注数据是一个值得深挖的方向。另一方面,降低神经网络的数据依赖性或能量模型理解数据本身的内在结构也尤为重要。一些行业权威人士认为,数据提取可能是人工智能的下一个突破口。
