MIT博士生、北大校友,用自监督算法,解决了数据集中这个常见的“难点”在训练模型的时候,你有没有遇到过这样的“尴尬”时刻:你好不容易找到了你想要的数据集,但是当您单击时,大多数样本都是一种类型的对象。(例如,如果数据集标记为“动物”,则80%的样本是“猫”)。用上述数据集训练出来的动物检测模型可能只能识别“猫”。这种数据不平衡(标签太多和标签太少)在机器学习中被称为“长尾问题”。这个问题导致数据集(尤其是大数据集)中样本数量少的对象泛化非常差。△像长尾一样然而,实际上,在一个数据集中,几乎总是存在常见和不常见的类别,而不常见的类别往往成为需要识别的目标。例如,在自动驾驶感知模型中,需要AI提前预测可能的违规行为,并及时预防。但是,在自动驾驶数据集中,不可能充满事故和违章(大部分场景还是安全的)。那么,这些“不平衡”的数据集真的不能用吗?麻省理工学院的两名博士生杨宇哲和徐志想到了一个新的解决方案,他们的研究成果在NeurIPS2020峰会上进行了展示。让我们来看看。现有的一些解决方案事实上,研究人员之前已经尝试过多种方法来解决“不平衡”的数据集。只是主流算法分为七种:重采样(re-sampling):分为少样本过采样和多样本欠采样,但这两种方法都有不足之处。其中,过采样在样本少的情况下容易过拟合,无法学习到更健壮和易于泛化的特征,在不平衡数据上表现不佳;欠采样会导致多个样本信息丢失严重,导致欠拟合。数据合成(syntheticsamples):生成类似于少数样本的新数据。以SMOTE方法为例,对于任意选取的少类样本,利用K近邻选取相似样本,通过对样本进行线性插值得到新的样本。这和mixup方法类似,所以也有mixup的不平衡版本。Reweighting(重新加权):给不同的类别(甚至不同的样本)分配不同的权重。其中,权重可以自适应。这种方法有很多变体,比如加权类别数的倒数、加权“有效”样本数、加权样本数损失以优化分类距离等等。迁移学习:分别对多类和少类样本建模,将学习到的多类样本信息/表示/知识迁移到少类。度量学习:希望可以学习更好的嵌入来更好地模拟少数类附近的边界/边缘。Metalearning/domainadaptation(元学习/领域适应):分别对头尾数据进行不同的处理,自适应地学习如何重新加权,或者作为领域适应问题进行规划。Decouplingfeaturesandclassifiers(decouplingrepresentation&classifier):研究发现将特征学习和分类器学习解耦,将不平衡学习分为两个阶段,在特征学习阶段进行正常采样,在分类器学习阶段进行平衡采样,可以带来更好的长效尾部学习效果。这是目前最好的长尾分类算法。但是当样本极度不平衡时,这些也没有用。如果真的只有几个样本,模型的性能差异是无法避免的。关键是,如何理解这里的“失衡”?“不平衡”标签的内在价值那些内在不平衡的数据标签会有任何价值吗?研究发现,这些不平衡的数据标签就像一把“双刃剑”。一方面,这些标签提供了非常宝贵的监管信息。在给定的任务上,监督学习往往比无监督学习更准确,即使是不平衡的,标签都具有“正值”。但另一方面,标签的不平衡会导致模型在训练过程中被强加标签偏差(labelbias),这会在决策区域受到主要类别的极大影响。研究人员认为,即使标签不平衡,其价值也能得到充分发挥,大大提高模型的分类准确率。如果我们能先“抛弃标签信息”,让模型通过自监督预训练学习到一个好的起始表示,是否能有效提高分类准确率呢?从半监督到自监督预训练,作者首先实验了半监督下的不平衡学习。实验表明,使用未标记数据的半监督学习可以显着提高分类结果。从图中可以看出,未标记的数据有助于建模更清晰的类边界,并导致类之间更好的分离。这是因为尾部样本所在区域的数据密度较低,模型在学习过程中无法很好地对低密度区域进行建模,导致泛化能力较差。但是,未标记的数据可以有效地增加低密度区域的样本量,从而使模型更好地对边界进行建模。但是,在一些半监督学习难以使用的极端情况下,仍然需要自监督学习。这是因为,一旦自我监督产生良好的初始化,网络就可以从预训练任务中获益,以学习更一般的表示。实验也证明了这一点。正常预训练的决策边界会在很大程度上被头部样本改变,导致尾部样本大量“泄漏”,无法很好地泛化。但是,如果使用自监督预训练,学习到的样本保持明显的分离效果,可以减少尾部样本的泄漏。也就是说,为了利用自监督来克服标签偏差,在长尾学习的第一阶段,需要丢弃标签信息,进行自监督预训练。在此阶段之后,可以使用任何标准训练方法来训练最终模型。(比如之前用过的transferlearning,reweighting,domainadaptation。。。)这样可以更好的解决长尾问题。作者介绍该论文的第一作者杨宇哲,目前是麻省理工学院计算机科学博士三年级,毕业于北京大学。目前,杨宇哲主要有两个研究方向:基于学习的无线传感技术,应用方向为医疗保健;机器学习,主要研究机器学习和强化学习的鲁棒性。徐志,论文第二作者,毕业于美国伊利诺伊大学厄巴纳-香槟分校,获学士学位。他也是麻省理工学院的博士生。研究方向为机器学习理论与现代应用。目前主要研究稳定性、效率、结构和复杂度。论文地址:https://arxiv.org/abs/2006.07529项目地址:https://github.com/YyzHarry/imbalanced-semi-self论文解读@杨宇奕:https://zhuanlan.zhihu.com/p/259710601
