当前位置: 首页 > 科技观察

科学家们正在努力避免人工智能“偷工减料”以获得更可靠的预测

时间:2023-03-18 21:16:23 科技观察

一种新方法迫使机器学习模型在学习任务时关注更多数据,这可能会导致更可靠的预测。如果您的优步司机走捷径,您可能会更快到达目的地。但是,如果机器学习模型走捷径,它可能会以意想不到的方式毁掉你正在尝试做的事情。在机器学习中,当模型依赖数据集的简单特征来做出决策,而不是学习数据的真实性质时,就会出现捷径,这可能会导致预测不准确。例如,模型可能会通过关注照片中出现的绿草而不是更复杂的牛的形状和图案来学习识别牛的图像。麻省理工学院研究人员的一项新研究探讨了一种流行的机器学习方法中的捷径问题,并提出了一种解决方案,通过强制模型在决策中使用更多数据来防止人工智能走捷径。通过删除模型关注的更简单的特征,研究人员迫使它关注它没有考虑的更复杂的数据特征。然后,通过要求模型以两种方式解决同一任务——一次使用那些更简单的特征,然后也使用它现在已经学会识别的复杂特征——他们减少了捷径解决方案的趋势并提高了模型的性能。麻省理工学院的研究人员开发了一种技术,通过强制模型专注于它以前没有考虑过的数据中的特征,来减少对比学习模型走捷径的趋势。这项工作的一个潜在应用是提高用于识别医学图像中疾病的机器学习模型的有效性。在这种情况下,捷径解决方案可能会导致错误的诊断并对患者造成危险的后果。了解捷径的漫长道路研究人员将他们的研究重点放在对比学习上,这是一种强大的自我监督机器学习形式。在自监督机器学习中,模型是使用原始数据训练的,没有人类衍生的标签描述。因此,它可以成功地用于更广泛的数据类型。自监督学习模型学习有用的数据表示,这些数据用作不同任务的输入,例如图像分类。但是,如果模型走捷径未能捕获重要信息,那么这些任务也将无法使用该信息。例如,如果一个自监督学习模型被训练来对某些医院的X光片中的肺炎进行分类,但它学习根据识别扫描来自特定医院的标签进行预测(因为某些医院有肺炎病例比其他医院),那么当它从新医院获得数据时,模型将不会表现良好。对于对比学习模型,编码器算法经过训练以区分相似和不同的输入对。此过程以对比学习模型可以解释的方式对丰富而复杂的数据(例如图像)进行编码。研究人员用一系列图像测试了对比学习的编码器,发现在这个训练过程中,它们也卡在了捷径解中。编码器倾向于关注图像中最简单的特征,以确定哪些输入对相似,哪些不相似。理想情况下,编码器在做出决定时应关注数据的所有有用特征。因此,该团队使区分相似和不同数据对之间的区别变得更加困难,并发现这改变了编码器将查看哪些特征来做出决定。如果你让区分相似和不相似项目的任务越来越难,系统将被迫从数据中学习更多有意义的信息,因为它不学习就无法解决任务。但增加这种难度会导致权衡——编码器会更好地关注数据的某些特征,但更不擅长关注其他特征,似乎几乎忘记了更简单的特征。为了避免这种权衡,研究人员要求编码器以原始方式区分这些对,使用更简单的特征,并在研究人员删除它已经学习的信息后。同时以两种方式解决任务可以改进所有功能的编码器。他们的方法称为隐式特征修改,自适应地修改样本以删除编码器用来区分对的更简单的特征。该技术不依赖于人工输入,这一点很重要,因为现实世界的数据集可能具有数百种不同的特征,这些特征可以以复杂的方式组合。从汽车到慢性阻塞性肺病都可以解决的问题研究人员使用车辆图像对该方法进行了测试。他们使用隐式特征修改来调整颜色、方向和车辆类型,使编码器更难区分相似和不同的图像对。编码器同时提高了所有三个特征(纹理、形状和颜色)的准确性。为了解该方法能否经得起更复杂的数据,研究人员还使用来自慢性阻塞性肺病(COPD)医学图像数据库的样本对其进行了测试。同样,该方法导致他们评估的所有功能同时得到改进。虽然这项工作在理解捷径解决方案的原因并努力解决这些问题方面迈出了重要的一步,但研究人员表示,继续完善这些方法并将其应用于其他类型的自我监督学习将是未来向前迈出的一步。重要的。