今天,机器学习(ML)模型被大规模使用,影响越来越大。然而,当它们在现实世界中使用时,它们通常会表现出意想不到的行为。谷歌AI发表论文,探讨规格不足(Underspecification)如何对机器学习提出挑战。如今,机器学习(ML)模型的应用比以往任何时候都更加广泛,其影响力也越来越大。然而,在现实世界中使用它们时,可能会出现问题,并且经常会出现意想不到的行为。例如,在分析计算机视觉(CV)模型的一个坏案例时,研究人员有时会发现该模型确实掌握了大部分理解特征的能力,但表现出一些人类根本不会注意的无关紧要的特征。惊人的灵敏度。再举个例子,一个自然语言处理(NLP)模型,让它学习文本,它确实学习了,但它有时依赖于文本没有直接表明的人口统计相关性。非常可预测。事实上,一些失败的原因是众所周知的:例如,ML模型是在不精确的数据上训练的,或者模型被训练来解决在结构上与应用领域不匹配的预测问题。然而,即使在解决了这些已知问题之后,模型行为在部署之间仍然不一致,甚至在训练运行之间也有所不同。影响ML模型可靠性的罪魁祸首:非标准谷歌团队在《机器学习研究杂志》上发表论文《不规则性挑战现代机器学习的可信度》。在https://arxiv.org/pdf/2011.03395.pdf文章中,研究人员表明,在现代机器学习系统中,一个特别容易失败的问题是不规则性。此外,在各种实际的机器学习(ML)系统中经常会出现不规则现象,因此谷歌为此提出了一些缓解策略。什么是不规则?非规范化背后的想法是,虽然机器学习模型已经在保留数据上得到验证,但这种验证通常不足以保证模型在新环境中使用时仍然具有明确定义的行为。ML系统的成功在很大程度上是因为它们在holdout数据集上验证模型以确保高性能。模型验证过程然而,对于固定的数据集和模型架构,通常有许多不同的方法可以为训练有素的模型实现高验证性能。但在标准预测任务中,编码不同解决方案的模型通常被认为是等效的,因为它们的持续预测性能大致相等。然而,当根据超出标准预测性能的标准进行衡量时,这些模型之间的差异就变得很明显,标准预测性能是为了测试模型对不相关输入扰动的公平性或稳健性。例如,在标准验证中表现同样出色的模型中,某些模型可能在社会群体和种族之间表现出比其他模型更大的性能差异,或者更依赖于不相关的信息。微小的扰动可以完全禁用深度学习网络。然后,当这些模型用于现实场景时,这些差异会转化为预测行为的实际差异。不规则性可能导致研究人员在构建ML模型时考虑的要求与ML管道实际执行的要求(即模型的设计和实施)之间存在差距。一个重要的结果是,ML管道原则上可以返回一个满足研究需要的模型,但在实践中,该模型仅足以对保留数据进行准确预测,而不能对超出这些分布的数据进行准确预测,它什么都不做。如何识别应用程序中的违规行为?这项工作检查了在实际应用中使用机器学习模型时非正则性的具体含义。Google给出的策略是使用几乎相同的机器学习(ML)管道来构建模型集,并且只对其应用非常小的更改。这种变化是如此之小,以至于即使同时验证它们,性能也不会相同。产生真正的影响。该策略的重点是专注于模型初始化训练和确定数据排序的随机种子。MLPipeline示意图如果说这些微小的变化对模型的重要属性产生了实质性的影响,那么MLpipeline并没有完全指定模型在现实世界中的行为。在实验的每个领域,研究人员发现这些微小的变化会导致模型在实际使用中的行为发生重大变化。计算机视觉中的不规则性例如,您可以考虑计算机视觉中的不规则性和鲁棒性之间的关系。计算机视觉的一个主要挑战是,深度学习模型在分布变化下往往变得脆弱,而人类认为这种变化并不具有挑战性。众所周知,在ImageNet基准测试中表现良好的图像分类模型在ImageNet-C等基准测试中表现不佳,原因很简单,因为这些测试将像素化或运动模糊等常见图像损坏应用于标准ImageNet测试集。因此,在实验中,标准管道没有指定模型对这些违规行为的敏感性。ImageNet-C数据集样本遵循上述策略,使用相同的管道和相同的数据生成50个ResNet-50图像分类模型。这些模型之间的唯一区别是训练中使用的随机种子。在标准ImageNet验证集上进行评估时,这些模型实现了几乎相同的性能。然而,当模型在ImageNet-C中的不同测试集(即损坏的数据)上进行评估时,模型的测试性能比在标准ImageNet上验证时变化了多个数量级。即使使用在更大的数据集上预训练的大规模模型,如在JFT-300M的3亿图像数据集上预训练的BiT-L模型,这种不规则性仍然存在。对于这些模型,在训练的微调阶段改变随机种子会产生类似的变化。左图:在严重损坏的ImageNet-C数据上随机初始化的相同ResNet-50模型之间的精度变化。线条表示集合中每个模型在使用未损坏的测试数据和损坏的数据(像素化、对比度、运动模糊和亮度变化)进行分类任务时的性能。给定值是精度与总体平均值的偏差,通过“干净”ImageNet测试集上的精度标准差来衡量。任意选择的模型的性能由黑色实线突出显示,以显示一项测试的性能如何不能很好地指示其他测试的性能。右图:来自标准ImageNet测试集的示例图像,其中包含受损版本的ImageNet-C基准测试。此外,这个问题存在于专门为医学成像构建的专用计算机视觉模型中。其中,深度学习模型显示出巨大的潜力。这里举两个应用方向为例,一个是眼科,用于从视网膜眼底图像检测糖尿病视网膜病变,另一个是皮肤科,从皮肤照片判断患者的皮肤病。研究人员在实际重要的维度上对这些管道生成的模型进行了压力测试。对于眼科方向,研究人员测试了使用不同随机种子训练的模型如何对训练期间未遇到的新相机的图像进行处理。皮肤科方向,检测思路大致相同,只是针对不同肤质的患者。左上:在对来自不同相机类型的图像进行评估时,使用不同随机种子训练的糖尿病视网膜病变分类模型之间的AUC变化。左下:在对不同估计的皮肤类型进行评估时,使用不同随机种子训练的皮肤状况分类模型之间的准确性差异(由皮肤科医生训练的外行根据回顾性照片进行近似,可能存在标签错误)。右图:来自原始测试集(左)和压力测试集(右)的示例图像。结果表明,标准验证确实不足以完全代表经过训练的模型在这些任务上的表现。例如在眼科的测试中,训练中使用的随机种子导致模型在面对新相机拍摄的图片时,变量波动比标准验证集大。这些结果再次表明,仅靠标准测试不足以确保模型在医学应用中的可靠性,并且需要扩展医学领域模型的测试和验证协议。在医学文献中,这些验证被称为“外部验证”。除了医学领域,其他应用领域也存在分类不规范带来的问题。例如:在NLP任务中,分类不规则会影响从BERT模型导出的句子。在急性肾损伤的繁重预测任务中,分类不规范会导致对操作信号和生理信号的更多依赖。在多基因风险评分(PRS)任务中,分类不规则会影响PRS模型的性能。结论解决非规范问题具有挑战性,需要对超出标准预测性能的模型进行全面规范和测试。这样做需要深入了解模型的使用环境、如何收集训练数据,以及在可用数据不足时的领域专业知识。以上几点恰恰是当今机器学习研究中经常被低估的。长期以来,这些领域的投资一直不足。为了解决这个问题,首先需要为机器学习实用模型指定一个新的压力测试协议,扩展现有的测试方法。在将新的测试标准编入可衡量的指标后,数据增强、预训练和因果结构等算法策略可能有助于提高这些模型的性能。但还应注意,理想的压力测试和改进过程通常需要迭代,因为机器学习系统要求和使用它们的世界都在不断变化。
