当前位置: 首页 > 科技观察

为什么人工智能感知不能直接与人类感知相比较?

时间:2023-03-17 11:06:55 科技观察

人类水平的表现,人类水平的准确性……我们经常在开发AI系统的公司中听到这样的表达,其范围涵盖人脸识别、物体检测,甚至问答。近年来,随着机器学习和深度学习的不断进步,越来越多的优秀产品开始使用AI算法作为实现基础。然而,这种比较通常只考虑在有限数据集上测试深度学习算法的结果。一旦贸然将关键任务交付给AI模型,这种草率的考核标准往往会导致对AI系统的错误预期,甚至可能产生危险的后果。德国各组织和大学最近的一项研究强调了在视觉数据处理领域评估深度技术性能的实际挑战。在这篇名为《人与机器的感知比较:众所周知的难题》的论文中,研究人员强调了当前比较深度神经网络和人类视觉系统识别能力的方法中存在的几个重要问题。在这项研究中,科学家们进行了一系列实验,包括深入挖掘深度学习结果并将其与人类视觉系统的能力进行比较。他们的发现提醒我们,即使AI的视觉识别能力看似与人类相似甚至优于人类,我们仍需谨慎看待结果。人类和计算机视觉的复杂性在不断探索理解人类感知的基本原理,尤其是重现人类感知的过程中,基于深度学习的计算机视觉技术带来了最令人钦佩的表现。卷积神经网络(CNN)是计算机视觉深度学习算法中常用的架构,可以完成传统软件无法完成的各种高难度任务。然而,将神经网络与人类感知进行比较仍然是一项艰巨的挑战。一方面是因为我们对人类视觉系统乃至整个人类大脑的了解还不够,另一方面是因为深度学习系统本身复杂的运行机制也是难以捉摸的。事实上,深度神经网络非常复杂,以至于它们也常常让它们的创造者感到困惑。近年来,大量研究试图评估神经网络的内部运作及其对现实世界情况的鲁棒性。“尽管进行了大量研究,但很难将人类感知与机器感知进行比较,”德国研究人员在他们的论文中写道。在这项研究中,科学家们专注于三个核心领域,以评估人类和深度神经网络如何处理视觉数据。神经网络如何感知轮廓?第一个测试是轮廓检测。在这个实验中,人类和AI参与者被要求说出他们看到的图像是否包含闭合轮廓。目标是了解深度学习算法是否掌握了封闭和开放形状的概念,以及它是否能够在各种条件下成功检测出满足概念定义的物体。▲你能分辨出上面哪张图片是闭合图形吗?“对于人类来说,该图显示了一个封闭的轮廓,周围环绕着大量开放的轮廓,”研究人员写道。相比之下,DNN可能难以检测闭合轮廓,因为神经网络可能将闭合轮廓与其他形状视为一个统一的整体。”在他们的实验中,科学家们使用了ResNet-50,这是由AI研究人员开发的一组流行的卷积神经网络微软。使用迁移学习技术,他们使用14,000张闭合和开放轮廓图像对AI模型进行了微调。接下来,他们在其他类似训练数据(使用不同方向的图形)上测试了AI。初步发现表明经过训练的神经网络似乎掌握了闭合轮廓的基本概念。即使训练数据集仅包含直线图形,该模型在处理曲线图形时也能带来良好的性能。“这些结果表明我们的模型确实掌握了这些概念开放和封闭的轮廓,它的判断过程与人类非常相似,”科学家们写道。良好的图形性能。但进一步投资gation揭示了某些不影响人类判断的因素可能会降低AI模型的准确性。例如,调整线条的颜色和宽度会导致深度学习模型的准确性突然下降。而当形状的尺寸超过一定尺寸时,模型似乎也难以正确判断形状。▲当图形包含不同颜色和粗细线条,整体尺寸远大于训练集图像时,ResNet-50神经网络将难以做出准确判断。此外,神经网络似乎对对抗性扰动非常敏感。所谓对抗性干扰,属于精心设计的变化。这些变化虽然人眼看不到,但会对机器学习系统的行为产生巨大影响。▲右图经过抗干扰处理。对于人眼来说,这两个图像之间没有区别;但是对于神经网络来说,它们已经很不一样了。为了进一步研究人工智能的决策过程,科学家们使用了Bag-of-Feature网络,这是一种旨在定位深度学习模型决策中使用的数据位的技术。分析结果证明,“神经网络确实使用了某些局部特征,例如具有端点和短边,作为分类和标记时的有力证据。”机器学习可以推理图像吗?第二个实验旨在测试深度学习算法在抽象视觉推理方面的性能。用于实验的数据基于综合视觉推理测试(SVRT),其中人工智能被要求回答一系列关于图像中不同形状之间关系的问题。试题分为差异(例如,图像中的两个形状是否相同?)和空间判断(例如,较小的形状是否位于较大形状的中心?)。人类观察者可以轻松解决这些问题。▲SVRT挑战赛需要AI模型解决找不同和空间判断的任务。在实验中,研究人员使用RESNet-50测试其在不同规模的训练数据集上的表现。结果表明,经过28,000个样本微调训练后的模型在发现差异和空间判断任务中表现良好。(之前的实验使用了一个拥有100万张样本图像的小型神经网络。)随着研究人员减少训练示例的数量,AI的性能也开始下降,并且在寻找差异的任务中下降得更快。“与空间判断任务相比,差异发现任务需要更多的训练样本。当然,这不能作为前馈神经网络与人类视觉系统之间系统差异的证据,”研究人员写道。研究人员指出,人类视觉系统天生就接受过大量抽象视觉推理任务的训练。因此,直接比较对于只能在低数据样本量下学习的深度学习模型是不公平的。因此,不应急于得出人类与人工智能内部信息处理方式存在差异的结论。“如果真正从头开始训练,人类视觉系统在这两项识别任务上的表现可能与ResNet-50相似,”研究人员写道。视觉系统最有趣的测试之一。以下图为例。你能猜出完整的图像显示了什么吗?毫无疑问,这是一只猫。从左上角的局部图像,你应该可以很容易地预测图像的内容。换句话说,我们人类需要看到一定数量的整体形状和图案才能识别图像中的物体。局部放大得越夸张,损失的特征就越多,我们就越难分辨图像中的内容。▲根据图片所包含的特征,小猫图像不同部分的局部放大图片会对人的感知产生不同的影响。深度学习系统的判断也是基于特征,只是具体方法比较巧妙。神经网络有时可以发现肉眼看不到的微小特征,即使局部区域被放大,这些特征仍然可以被正确检测到。在最后的实验中,研究人员试图通过逐渐放大图像直到AI模型的准确性开始明显下降来衡量深度神经网络的间隙辨别力。该实验表明,人类图像差距辨别与深度神经网络之间存在较大差异。但研究人员在他们的论文中指出,大多数先前对神经网络中的差距歧视的测试都是基于人类选择的局部地图。这些部分选择通常有利于人类视觉系统。在使用“机器选择”的局部地图测试深度学习模型时,研究人员发现人类和AI在差距辨别方面的表现大致相同。▲差距辨别测试可以评估局部地图对AI判断准确率的具体影响。“这些结果表明,只有在相同的基础上进行人机对比测试才能避免人机偏差,”研究人员写道。尽可能接近,从而确保观察到的任何差异都是由于决策策略引起的,而不是测试程序中的差异。”弥合人工智能与人类智能之间的差距随着人工智能系统变得越来越复杂,我们还需要开发出越来越复杂的人工智能测试方法。该领域的先前研究表明,大多数用于衡量计算机视觉系统准确性的流行基准都有些误导。德国研究人员的工作旨在更好地衡量人工智能性能,准确量化人工智能与人类智能之间的真正差异。他们得出的结论也将为未来的人工智能研究提供方向。研究人员总结道,“人与机器之间的比较研究往往对人类思想的自发解释存在强烈的偏见。程序统一化、泛化测试、对抗性示例和受限网络测试等),我们可以做出合理的解释结果并正视这种自发偏见的存在。在进行比较时,必须注意不要人为地将任何系统性偏见强加给他们。”