【.com快译】从人工智能技术发展初期,科学家们就梦想创造出可以“看到”外面世界的计算机。由于视觉功能在人们的工作和生活中起着至关重要的作用,破解计算机视觉密码已成为通用人工智能发展的主要步骤之一。但是,就像人工智能需要实现的许多事情一样,计算机视觉说起来容易做起来难。麻省理工学院的科学家们于1966年夏天启动了“夏季视觉计划”,旨在创建一个能够识别图像中的物体和背景区域的计算机系统。原计划在两个月内完成,但要实现这些目标,需要的时间远远超过两个月。事实上,直到2010年之后,图像分类器和目标检测器才变得足够灵活和可靠以用于主流应用。在过去的几十年中,机器学习和神经科学的发展帮助计算机视觉取得了长足的进步。但是,要创建一个像人类一样看待世界的人工智能系统,还有很长的路要走。哈佛医学院教授加布里埃尔·克里曼(GabrielKreiman)在他的《生物和计算机视觉》一书中描述了人类和动物如何处理视觉数据,以及在计算机上复制这些功能所取得的进展。Kreiman的这本书有助于理解生物学和计算机视觉之间的区别。该书详细介绍了数十亿年的进化如何赋予人类和动物复杂的视觉处理系统,以及如何研究它以开发更好的计算机视觉算法。此外,还讨论了现代计算机视觉系统和生物视觉系统之间的差异。这里简要列出这项工作的一些主要内容。硬件差异生物视觉运行在有机神经元和皮层细胞上,而计算机视觉运行在晶体管和电子电路上我特别兴奋。生物视觉是数百万年进化的产物。当研究人员开发计算模型时,他们可以从生物学中学习并了解如何解决视觉问题,并将这些解决方案作为构建更好算法的灵感。”事实上,对视觉皮层的研究一直是计算机视觉和人工智能的灵感来源。但在实现视觉的数字化能力之前,科学家们必须克服生物视觉和计算机视觉之间巨大的硬件差距。生物视觉在皮质细胞和有机神经元的互连网络上运作。另一方面,计算机视觉运行在由晶体管制成的电子芯片上。因此,视觉理论的定义必须以类似于生物层面的方式在计算机中实现。Kreiman称之为“金发姑娘解决方案”,一种既不详细也不简化的抽象。例如,计算机视觉的早期尝试试图以一种非常抽象的方式来处理计算机视觉,而忽略了人类和动物大脑如何识别视觉模式。事实证明,这些方法非常脆弱且效率低下。另一方面,在分子水平上研究和模拟大脑也被证明在计算上效率低下。“我不太喜欢所谓的‘复制生物学’,”克雷曼说。“生物学的许多方面可以而且应该被抽象出来。我们可能不需要开发一个包含20,000种蛋白质、细胞质和复杂树突几何结构的模型。”单位,其中有太多的生物学细节。另一方面,我们不能只研究不够详细的行为。”Kreiman在《生物和计算机视觉》一书中指出,神经科学和医学技术的进步使得在毫秒级研究单个神经元活动成为可能。这些研究的结果帮助开发了不同类型的人工神经网络,人工智能算法可以很容易地模仿哺乳动物大脑皮层区域的运作。近年来,神经网络已被证明是视觉数据中模式识别最有效的算法,并已成为许多计算机视觉应用程序的关键组成部分。架构差异近几十年来,深度学习领域的大量创新帮助计算机模仿了生物视觉的某些特征。受动物视觉皮层研究的启发,卷积层在寻找视觉数据中的模式方面非常有效。池化层有助于概括卷积层的输出,并使它们对视觉模式的变化不那么敏感。堆叠在一起,卷积层和池化层的范围可以从发现微小的图案(物体的角和边缘等)到复杂的物体(面孔、椅子、汽车等)。然而,人工神经网络的高级架构与已知的哺乳动物视觉皮层之间仍然存在不匹配。“不幸的是,术语层有点模棱两可,”克雷曼说。在计算机科学中,人们使用层来表示处理的不同阶段(层在很大程度上类似于大脑区域)。在生物学中,每个大脑区域包含六个皮质。层。我认为六层结构(具有类似于微电路的连接性)是至关重要的。目前尚不清楚该回路的哪些方面应该包含在神经网络中。”此外,正如Kreiman在《生物学和计算机视觉》中强调的那样,大脑中的信息会向多个方向移动。光信号从视网膜传播到下颞叶皮层,并且然后到V1、V2和视觉皮层的其他层。但每一层也向其上方的层提供反馈。在每一层中,神经元相互作用并传递信息。所有的相互作用和互连帮助大脑填充视觉输入的差距,并在信息不完整时做出推断。相比之下,在人工神经网络中,数据通常朝一个方向移动。卷积神经网络是一种“前馈网络”,这意味着信息仅从输入层传递到更高层和输出层。还有一种称为“反向传播”的反馈机制,可以帮助纠正错误并调整神经网络的参数。然而,反向传播算法计算量大,仅用于神经网络训练。目前尚不清楚反向传播是否直接对应于皮层中的反馈机制。另一方面,将较高层的输出与先前层的输入相结合的递归神经网络在计算机视觉中的应用受到限制。在视觉皮层(右)中,信息向多个方向移动。然而,在神经网络(左)中,信息只能朝一个方向移动。Kreiman指出,横向移动和自上而下的信息流对于将人工神经网络引入其生物对应物至关重要。“水平连接(即同一层内单元的连接)对于某些计算可能至关重要,”他说。“自上而下的连接(即从一层中的一个单元到下一层中的一个单元的连接)对于做预测、吸引注意力、合并上下文信息等都是至关重要的。”他还指出,神经元具有复杂的时间整合特性,这是当前神经网络所缺少的。目标差异人类功能的进化已经成功开发出可以完成许多任务的神经架构。多项研究表明,人们的视觉系统可以动态调整其敏感度根据他们想要实现的目标。然而,对于那些希望创建具有这种灵活性的计算机视觉系统的人来说,一个重大的挑战仍然存在。当前的计算机视觉系统被设计为执行单一任务。例如,有可以对对象进行分类的神经网络,定位对象、将图像分割成不同的对象、描述图像、生成图像等。但是每个神经网络只能单独完成一项任务。《生物和计算机视觉》,由GabrielKreiman编辑,“一个核心问题是理解‘视觉约定’,如何人类以任务相关的方式灵活地传达视觉信息?基本上可以在一张图片上回答更多的问题……不仅仅是标记物体,而是计数物体,可以描述它们的颜色、相互作用、大小等。我们可以构建神经网络来做这些事情,但我们不能构建神经网络网络同时做这些事情。有一些有趣的方法可以用问答系统做到这一点,但这些算法虽然令人兴奋,但仍然相当原始,尤其是与人类表现相比。”整合差异在人类和动物中,视觉与嗅觉、触觉和听觉密切相关。视觉皮层、听觉皮层、体感皮层和嗅觉皮层相互作用并相互获取线索,以微调它们对世界的推断。另一方面,在人工智能系统中,每个事物都是独立存在的。那么,科学家是否需要这种集成来制造更好的计算机视觉系统?Kreiman说:“作为一名科学家,我经常喜欢把问题分解并一个一个地解决。我个人认为这是一个合理的起点,可以看得更清楚,虽然不能闻也不能听。这就像在看一场卓别林的无声电影(没有声音和文字),但人也可以理解很多东西。如果一个人天生耳聋,他们仍然可以看得很清楚。当然,还有更多涉及各种模态之间有趣互动的例子,但我认为通过这种简化,可以取得很大的进步。”然而,一个更复杂的问题是视觉与大脑整合的更复杂区域有关。人类视觉与其他大脑功能紧密结合,例如逻辑、推理、语言和常识。“解决某些视觉问题可能需要‘更多时间,并且需要将视觉输入与现有的世界知识相结合’,”Kreiman说,并以美国前总统巴拉克奥巴马的照片为例。需要一些世界知识、社会知识和常识才能理解这张照片中真正发生的事情。例如,人工智能系统需要知道体重秤上的人在做什么、奥巴马在做什么、谁在笑、他们为什么笑等等的各种细节。回答这些问题需要处理大量的信息,包括生活知识(体重秤衡量体重)、物理知识(奥巴马的脚发力)、心理知识(很多人对体重都有自己的估计,如果体重比平常多很多,惊讶),社会理解(有些人认为这是个玩笑,有些人不认为)。“当前的AI架构无法做到这一点,”Kreiman说。“所有这一切都需要结合动态(人们不会马上意识到,并且经常使用更多功能来理解图像)和自上而下的信号。””语言和常识等领域本身就对AI社区提出了一些巨大挑战。但这些问题是否可以单独解决并与愿景整合,或者整合本身是否是解决所有问题的关键,还有待观察。“在某些时候,我们需要了解认知的其他方面,”Kreiman说。“很难想象如何在不涉及语言和逻辑的情况下整合认知。我希望在未来几年内,能融入更多的语言和逻辑。”进入视觉模型(或者反过来也将视觉纳入语言模型),这将是一个令人兴奋且意义重大的进步。》原标题:理解生物视觉和计算机视觉的区别,作者:BenDickson
