当前位置: 首页 > 科技观察

NeurIPS2019:谷歌提出了一种改进机器学习分布外异常检测的新方法

时间:2023-03-12 03:08:24 科技观察

对于机器学习来说,区分异常数据或差异显着的数据至关重要。在NeurIPS2019论文中,Google提出并发布了一个用于基因组序列OOD检测的现实基准数据集,然后提出了基于似然比的解决方案,可以显着提高OOD检测的准确性。AITechnologyReview整理了谷歌官方对以下方法的解读。为了让深度学习科学家成功部署机器学习系统,他们需要系统能够区分异常数据或与训练中使用的数据有显着差异的数据。由于深度神经网络分类器可以将分布外(ODD)的输入以高置信度分类到分布内的类别中,因此区分异常值或明显不同的数据非常重要。异常数据检测将尤为重要,因为我们使用这些预测来为现实世界的决策提供信息。例如,将机器学习模型应用于基于基因组序列的细菌检测是一项具有挑战性的现实应用。细菌检测对于败血症等传染病的诊断和治疗以及食源性病原体的鉴定至关重要。近年来,随着新细菌物种的不断发现,虽然在已知分类上训练的神经网络分类器通过交叉验证已经取得了很高的测量精度,但部署模型仍然极具挑战性,因为真实世界的数据在不断发展,并将不可避免地包括以前在训练数据中从未见过的基因组(OOD输入)。图1近年来,随着新细菌种类的逐渐发现。将已知分类数据输入到在已知分类数据上训练的分类器中可以获得高准确度,因为输入分类数据是已知的,但是它可能将未知分类数据与已知分类数据(例如ODD数据)混合,以高置信度被错误分类。在NeurIPS2019发表的论文《分布外检测的似然比》(LikelihoodRatiosforOut-of-DistributionDetection)中,谷歌受到上述新细菌物种检测的现实问题的启发,提出并发布了一个现实的基准数据集用于基因组序列OOD检测。论文地址:https://arxiv.org/abs/1906.02845实现代码GitHub地址:https://github.com/google-research/google-research/tree/master/genomics_ood他们测试了ExistingmethodsforOODdetection发现可能性——即模型输入来自使用非均匀数据估计的分布数据的概率——通常是错误的。他们在近期对图像深度生成模型的研究工作中也观察到了这一现象,并通过统计背景效应对其进行了解释,进而提出了一种基于似然比的解决方案,可以显着提高OOD检测的准确性。性别。1、为什么密度模型不能应用于OOD检测?为了模拟现实世界的问题并系统地评估不同的方法,他们使用来自美国国家生物技术信息中心(NCBI)的数据构建了一个新的细菌数据集,该数据集是公开可用的原核生物目录基因组序列数据。为了模拟测序数据,他们将基因组分割成当前测序技术通常使用的250个碱基对的短序列长度。然后,它按发现日期分离分布内和分布外数据,因此在截止时间之前发现的细菌物种被定义为分布内,而在截止时间之后发现的细菌物种被定义为分布外(OOD)。然后,他们基于分布内的基因组序列训练了一个深度生成模型,并通过绘制似然曲线来测试模型区分输入数据分布内和分布外的能力。与分布内序列似然紧密一致的OOD序列似然直方图表明生成模型无法区分两个物种之间的OOD检测。在图像深度生成模型的早期研究中也得到了类似的结论(相关阅读参考:https://arxiv.org/abs/1810.09136)。例如,在Fashion-MNIST数据集(由服装和鞋类图像组成)上训练的PixelCNN++模型分配的似然值高于来自MNIST数据集的OOD图像(包括数字0-9的图像)。图2左:分布内和分布外(OOD)基因组序列的似然值直方图。似然值无法区分分布内和OOD基因组序列。右图:在Fashion-MNIST数据集上训练的模型的似然直方图,MNIST数据集的估计值。该模型在OOD(MNIST)图像上分配的似然值高于在分布图像上的似然值。在研究这个故障模型时,他们观察到背景统计数据可能影响了可能性的计算。为了更直观地理解这种现象,假设输入由两个部分组成:(1)以背景统计为特征的背景部分,以及(2)以分布中指定的数据特定模式为特征的语义部分。例如,MNIST图像可以建模为背景加语义。人类在解读图像时,很容易忽略背景信息,而将注意力集中在语义信息上,例如下图中的“/”标记。但是当对图像中的所有像素计算似然度时,语义像素和背景像素都包含在计算结果中。虽然他们只需要使用语义似然值来做出决策,但大多数原始似然值结果可能是背景成分。图3左上角:来自Fashion-MNIST的示例图像。左下:来自MNIST的示例图像。右图:MNIST图像中的背景和语义成分。2.LikelihoodRatioforOODDetection他们提出了一种去除背景影响并关注语义成分的似然比方法。首先,受基因突变的启发,他们使用扰动输入法训练背景模型,通过随机选择输入值的位置,以等概率将其替换为另一个值。对于成像,他们从256个可能的像素值中随机选择输入值;对于DNA序列,他们从四种可能的核苷酸(A、T、C或G)中选择输入值。在此过程中,适当的扰动会破坏数据的语义结构,导致仅捕获背景。接下来,他们计算完整模型和背景模型之间的似然比,移除背景成分,以便只保留语义似然。似然比是背景对比度得分,即它捕获语义与背景对比度的含义。为了定性评估似然和似然比之间的差异,他们绘制了Fashion-MNIST数据集和MNIST数据集中每个像素的似然和似然比,创建了与图像大小相同的热图。这使他们能够分别可视化哪些像素对这两个值的贡献最大。从对数似然热图中可以看出,背景像素比语义像素对似然值的贡献更大。事后看来,这并不奇怪,因为背景像素主要由零串组成,因此很容易被模型学习。MNIST和Fashion-MNIST热图之间的比较显示了为什么MNIST返回更高的可能性——仅仅是因为它包含更多的背景像素!相比之下,似然比的结果更侧重于语义像素。这种似然比方法校正了背景效应。他们基于Fashion-MNIST训练了PixelCNN++模型,然后对MNIST图像数据集进行了OOD检测。实验结果得到显着改善,AUROC评分从0.089提高到0.994。当他们将似然比方法应用于基因组基准数据集的挑战性问题时,与其他12种基线方法相比,它显示出最佳性能。不过,他们也表示,虽然似然比法在基因组数据集上取得了state-of-the-art的性能,但距离将模型部署到实际应用的高精度要求还有一定距离。他们鼓励研究人员致力于解决这一重要问题,并改进当前的最新技术水平。