研究人员惊讶地发现,深度学习视觉算法经常在图像分类上遇到困难,因为它们主要关注纹理——而不是形状——从中提取判断线索。当我们看一张猫的照片时,往往可以快速辨别出它是橘猫还是虎斑猫——此外,图像是否黑白、是否有斑点、是否有磨损等.,也都是在观察过程中很容易得出的结论。此外,我们还会发现这些小动物是蜷缩在枕头后面,还是迅速跳到桌子上。总而言之,人类可以在不知情的情况下快速学会识别小猫。相比之下,虽然由深度神经网络驱动的机器视觉系统在某些情况下可以提供比人类更好的识别能力,但一旦构图比较稀有,有噪声或其他干扰因素,系统也可能出错。内容清晰的图片无能为力。近日,德国的一个研究团队发现了一个意想不到的原因:人类对图像中物体的形状更为敏感,而深度学习计算机视觉算法通常更关注物体的纹理。研究结果于5月在国际学习会议上发表,强调了人类和机器“思考”方式之间的明显差异,并说明了我们的直觉如何误导人工智能。此外,该研究还暗示了为什么人类视觉会以今天的形式发展。比如披着象皮的猫,钟表做的飞机,深度学习算法体现为一组神经网络,里面有上千张有猫和没有猫的图片素材。系统可以在这些数据中找到模式,并使用它来决定如何更好地标记它从未见过的图像。该网络的架构类似于人类视觉系统,但它的建模更加松散——这是因为其中连接的层允许网络逐步从图像中提取越来越多的抽象特征。然而,这个系统实际上是一个“黑匣子”过程,我们只能得到正确的答案,却不知道答案是从哪里来的。“我们一直在努力弄清楚是什么让深度学习计算机视觉算法获得正确的结果,以及哪些因素可能会干扰这种视觉识别,”未参与该研究的俄勒冈州立大学计算机科学家ThomasDietterich说。.带着这个目标,一些研究人员开始探索网络在对图像内容进行修改后可以欺骗出什么样的结论。他们发现,一些非常小的变化可能会导致系统完全错误地标记图像中的对象——但一些大的变化不会导致系统修改其标记内容。与此同时,其他一些专家通过网络回溯,分析了图像中单个“神经元”的反应,并为系统学习到的特征生成了所谓的“激活图谱”。来自德国蒂宾根大学的计算神经科学家MatthiasBethge和心理物理学家FelixWichmann实验室的一组科学家采用了一种更定性的方法。去年,该团队报告说,当他们在受到特定噪声干扰的图像上训练神经网络时,他们发现神经网络在对具有类似失真的新图像进行分类方面优于人类。但是简单地用一些新模式调整这些图像就可以完全欺骗网络——即使新的内容扭曲看起来与图像中的原始扭曲没有什么不同。为了解释这一结果,研究人员推测极低的噪音水平也可能具有巨大的决策权重。在这方面,纹理似乎是一个很好的线索。Bethge和Wichmann实验室的研究生、该研究论文的资深作者RobertGeirhos指出,“如果长时间添加大量噪声,图像对象的形状因子不会受到太大影响。但另一方面,当你添加一点噪声因子时,图像中某些物体的这些局部结构也会变得极度扭曲。”因此,他们想出了一个聪明的方法来测试人类和深度学习系统处理图像的准确程度。Geirhos、Bethge和他们的同事创建了两张包含相互冲突线索的图像——一个物体的形状取自一个物体,而其纹理取自另一个物体。例如,用裂开的灰色纹理(象皮)填充猫的轮廓;或制作带有熊纹理的铝罐,甚至制作由堆叠钟面组成的飞机图形。有了数百张这样的图像,人类仍然能够在图像中高度准确地标记形状——猫、熊、飞机等。相比之下,四种不同的分类算法倾向于另一种理解方式,给出反映物体纹理的标签,包括大象、罐头、钟表等。“这正在改变我们理解深度前馈神经网络可以为视觉识别做些什么,以及它们是如何被训练的,”哥伦比亚大学的计算神经科学家NikolausKriegeskorte说,他没有参与这项研究。奇怪的是,人工智能对纹理大于形状的理解,似乎有点实际意义。Kriegeskorte说,“我们实际上可以将纹理视为更精细的形状。”神经系统可以更容易地锁定高精度的形状比例:具有纹理信息的像素数量远远超过构成物体边界的像素数量,神经网络的第一步是检测线和边缘等局部特征。“这就是纹理,”参与这项研究的多伦多约克大学的计算视觉科学家JohnTsotsos说。所有段组的排列方式相同。Geirhos和他的同事已经表明,这些局部特征足以让神经网络执行图像分类任务。事实上,Bethge和该研究的另一位作者、博士后研究员WielandBrendel也通过一篇论文提到了这一点。在这项工作中,他们构建了一个深度学习系统,但具体的操作方法与之前的分类算法非常相似。深度学习技术的问世——它更像是一个“功能包”。它最初将图像分成许多微小的块(类似于Geirhos等现有模型),但随后它并没有像其他模型那样逐渐整合信息并提取高级特征,而是立即识别出每个小块中图像的内容(“这个街区有自行车的因素,另一个街区有鸟的因素”,等等)。它堆叠这些决策的结果以确定对象的实际内容(“如果有更多包含自行车的补丁,则图像显示自行车”),完全无视不同瓦片之间的全局空间关系。但正是这种“笨办法”,能够以惊人的准确度识别物体。“这一发现挑战了深度学习技术与以前的模型根本不同的假设,”布伦德尔说。“很明显......深度学习仍然代表着一个飞跃,只是不像一些人希望的那样具有破坏性。”’”约克大学和多伦多大学的博士后研究员AmirRosenfeld(未参与该研究)表示,“我们对神经网络工作方式的理解与它们的工作方式之间仍然存在“巨大差异”实际上工作。还包括神经网络对复制人类行为的影响。布伦德尔也表达了类似的观点。他说,人们很容易假设神经网络可以像人类一样解决任务,“但我们也忘记了,或者故意忽略了其中还有其他的可能性。”更接近人类的观察方法当前的深度学习方法可以将纹理等局部特征整合到更全局的模式中。Kriegeskorte指出,例如,当谈到形状时,“这篇论文提出了一个令人惊讶但令人信服的论证,即虽然架构可以关注形状,但如果只训练(对标准图像进行分类),神经网络不会自动提出形状的概念。”Geirhos希望看到当团队强制这些神经模型忽略纹理时会发生什么。该团队拍摄了传统上用于训练分类算法的图像,并以不同的风格“绘制”它们,从本质上剥离了有用的纹理信息。当他们重新训练每组深度在新图像上学习模型,系统逐渐开始关注更大、更全局的模式,同时也表现出更像人类的形状偏好。这样,算法可以更好地区分包含噪声干扰的图像,甚至无需训练即可识别内容Geirhos说:“基于形状的网络能够提供更强大的识别能力。这让我们意识到,对于某些任务,实际上存在‘正确偏见’的概念。”以我们的研究为例,形状偏见可以将视觉识别算法扩展到更新颖的场景。”研究还表明,人类可能天生也有这种偏见;因为形状对于有很多噪音或噪音的情况来说是一个更可靠的指标,可以帮助我们更好地定义我们所看到的。内容。人类生活在三维世界中,许多物体在不同的条件和角度下会呈现出不同的状态。我们的其他感官,例如触觉,可以根据需要提高物体识别能力。因此,我们与生俱来的头脑优先考虑形状而不是质地。(此外,一些心理学家提出了语言、学习和人体形状偏见之间的联系;当幼儿接受训练时,他们可以专注于某些类别的单词以更加关注形状因素。因此,他们往往比未受过训练的孩子表现更好在随后掌握名词或与对象相关的词汇中。)Wichamnn说这项工作提醒人们“数据可以产生远远超出我们知识范围的东西。偏见和影响。这不是研究人员第一次遇到这个难题:面部识别程序、自动招聘算法和其他神经网络都被证明过分强调了意想不到的特征。这是因为这些神经网络使用的训练数据中已经存在根深蒂固的偏见。从决策过程中消除这些不必要的偏见通常很困难,但Wichmann相信这项新研究显示了新的可能性。然而,即使Geirhos的模型已经开始关注形状,它也会受到图像中大量噪声或特定像素变化的干扰——这表明它距离再现人类视觉的能力还有很长的路要走。(同样,Tsosenos实验室的研究生Rosenfeld、Tsotsos和MarkusSolbach最近发表的研究表明,机器学习算法无法像人类那样感知不同图像之间的相似性。)但Krigeskorte指出,“通过这项研究,我们最终开始触及一个实质性的问题——计算机视觉识别算法还没有掌握人脑中的一些重要机制。”在威奇曼看来,“在某些情况下,关注数据集可能更重要。”SanjaFidler未参与该研究的多伦多大学计算机科学家对此表示赞同。她解释说:“结果取决于我们是否可以设计智能数据和智能任务。”她和她的同事目前正在研究如何为神经网络帮助网络提取最重要的特征。受Geirhos发现的启发,他们最近训练了一种图像分类算法,该算法不仅可以识别object本身,还有哪些像素是其轮廓或形状的一部分。该网络可以自动提高常规物体识别任务的判断水平。Fidler说:“一旦我们完成了一项任务,我们就会自然而然地选择注意力,同时忽略很多不同的因素。”“但如果我们面临多项任务,我们可能会看到更多的影响。”这些算法也是如此。”算法在解决各种任务时可能“对不同的信息产生偏见”,这与Geirhos在形状和纹理实验中的发现非常吻合。在深度学习中做什么和做什么。这可能会帮助我们克服今天困扰我们的许多限制。所以,我很激动。“感谢这次发表的系列论文。”
