近日,德国图宾根大学和波茨坦大学的研究人员联合发布了一项研究成果——信号变弱时深度神经网络与人类视觉比较对象识别的差异。这些专家来自神经信息处理、综合神经学、心理学和生物控制等不同领域。该研究旨在解释DNN与人类神经系统在结构和处理上的差异,并找出信号减弱时两种视觉系统的分类错误模式的差异。论文:深度神经网络与人类的比较:信号变弱时的物体识别论文链接:https://arxiv.org/pdf/1706.06969.pdf摘要:人类视觉在进行物体识别时通常非常快,似乎有毫不费力,主要是透视和面向对象的独立性。直到最近,动态视觉系统才具备这种非凡的计算能力。这正是随着一类称为深度神经网络(DNN)的算法的出现而发生的变化,这些算法在对象识别任务中实现了人类级别的分类性能。而且,更多类似于DNN方法的研究报告,以及人类视觉系统处理物体的过程,都表明目前的DNN可能是一个很好的人类视觉模型,用于物体识别。然而,现代DNN和灵长类视觉系统之间存在显着的结构和处理差异。这些不同的潜在行为结果尚无法完全解释。我们的目标是通过比较人类和DNN整合图像退化的能力来解决这个问题。我们发现人类视觉系统对图像处理操作更稳健,例如对比度降低、加性噪声或新的幻象失真。并且我们逐渐发现人类和DNN在信号逐渐变弱的情况下犯错方式的差异,这表明人类和目前的DNN在视觉对象识别方面仍然存在很大差异。我们希望我们的发现,连同我们经过仔细测试和免费提供的行为数据集,可以为计算机视觉社区提供一个新的实用基准,以增强DNN的稳健性,并促使神经科学家寻找可以促进这种稳健性的大脑机制。图1.图1.:实验原理图。渲染中央固定正方形(300毫秒)后,图像可视化200毫秒,然后是1/f频谱的噪声掩模(200毫秒)。然后,在1500毫秒处出现一个响应屏幕,观众可以在其中单击一个类别。请注意,我们增强了该图中噪声掩模的对比度,以便在发布时获得更好的可见性。从上到下的类别是:刀、自行车、熊、卡车、飞机、手表、船、汽车、键盘、烤箱、猫、鸟、大象、椅子、瓶子、狗。这些插图是MSCOCO(http://mscoco.org/explore/)版本的修改版本。图2图2:颜色测试结果(n=3)。(a)准确性。DNN是蓝色的,人类是红色的;菱形是AlexNet,正方形是GoogLeNet,三角形是VGG-16,圆圈是人类观察者。(b)响应分布熵。图3图3:对应于50%分类准确度的估计刺激。(a)噪声实验。(b)Eidolon实验。一致性参数=1.0。顶行:刺激信号(刺激)对应于普通人类观察者的阈值。底部三行:刺激对应于VGG-16(第二行)、GoogLeNet(第三行)和AlexNet(最后一行)的相同精度。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文
