计算机视觉会再次重塑自我吗?匹兹堡大学眼科教授、CMU机器人研究所兼职教授RyadBenosman是这么认为的。作为基于事件的视觉技术的创始人之一,Benosman预测神经形态视觉——基于事件相机的计算机视觉——将是计算机视觉的下一个方向。“计算机视觉已经被重新发明了很多次,”贝诺斯曼说。“我看到它至少被改造过两次。”Benosman指的是1990年代从使用少量摄影测量的图像处理到基于几何的方法的转变,以及今天机器学习的快速发展。尽管发生了这些变化,现代计算机视觉技术仍然主要基于图像传感器——产生类似于人眼所见图像的相机。根据Benosman的说法,在图像传感范式不再有用之前,它会阻碍替代技术的创新。GPU等高性能处理器的发展推迟了寻找替代解决方案的需要,从而延长了这种影响。“为什么我们要将图像用于计算机视觉?这是一个价值百万美元的问题,”他说。“我们没有理由使用图像——这只是因为历史的动态。甚至在有相机之前,图像就有了动力。”图像相机自公元前五世纪的针孔相机以来,图像相机一直存在,直到1500年代,艺术家们使用房间大小的设备将房间外的人物或风景图像追踪到画布上。多年来,这些画作被胶卷取代以记录图像。数码摄影等创新最终使成像相机很容易成为现代计算机视觉技术的基础。然而,Benosman认为基于图像的基于相机的计算机视觉技术效率极低。他的类比是中世纪城堡的防御系统:围墙周围的守卫警惕接近的敌人。鼓手稳稳地敲着,每敲一下,每个守卫就喊出自己看到的东西。在喧嚣中听到守卫在森林远处的边缘发现敌人有多容易?21世纪相当于鼓声的硬件是电子时钟信号,守卫是像素。大量数据被创建,每个时钟周期都必须检查,这导致大量冗余信息,这需要大量不必要的计算。“人们消耗了如此多的能量,它占用了城堡的全部计算能力来保护自己,”贝诺斯曼说。如果发现一个有趣的事件——在这个类比中以敌人为代表——“你必须四处收集无用的信息,人们到处都在尖叫,所以带宽很大……现在想象你有一座复杂的城堡。所有这些人一切都必须被听到。”输入神经形态视觉。基本思想受到生物系统通过检测场景动态变化而不是持续分析整个场景的工作方式的启发。在我们的城堡类比中,这意味着让守卫保持安静,直到他们看到感兴趣的东西,然后呼叫他们的位置以拉响警报。在数字版本中,这意味着让各个像素决定它们是否看到了相关的东西。“像素可以自己决定应该发送什么信息,”贝诺斯曼说。“他们可以寻找有意义的信息——签名,而不是获取系统信息。这就是不同之处。”与索尼合作开发的PropheseeDVS传感器评估套件。Benosman是Prophesee的联合创始人。与固定频率系统采集相比,这种基于事件的方法可以节省大量电量并减少延迟。“你想要更具适应性的东西,这就是相对变化[基于事件的视觉]给你的-自适应采集频率,”他说。“当你观察振幅变化时,如果某物移动得非常快,我们会得到很多样本。如果某物没有变化,你得到的几乎为零,所以你正在调整你的采集频率以适应场景的动态.......that'swhatitbrings.That'swhyit'sagooddesign.”Benosman于2000年进入神经形态视觉领域,他坚信先进的计算机视觉永远行不通,因为图像不是正确的方法。“最大的转变是说我们可以在没有灰度和图像的情况下实现视觉,这在2000年代后期是异端——完全是异端,”他说。Benosman提出的技术——当今基于事件的传感的基础——是如此不同,以至于提交给当时最重要的IEEE计算机视觉期刊的一篇论文未经审查就被拒绝了。事实上,直到2008年动态视觉传感器(DVS)的开发,该技术才开始获得发展势头。受神经科学启发的神经形态技术是受生物系统启发的技术,包括终极计算机:大脑及其神经元或计算元素。问题是没有人完全理解神经元是如何工作的。虽然我们知道神经元对传入的称为尖峰的电信号起作用,但直到最近,研究人员才将神经元描述为相当草率,认为只有尖峰的数量才是重要的。这一假设持续了几十年,但最近的研究表明,这些尖峰的时间绝对至关重要,大脑的结构会延迟这些尖峰以编码信息。今天的尖峰神经网络模仿大脑中看到的尖峰,这是真实事物的简化版本——通常是尖峰的二进制表示。“我收到1,我醒来,数数,然后睡觉,”Benosman解释道。现实要复杂得多。当尖峰出现时,神经元开始随着时间的推移对尖峰的值进行积分;神经元也会泄漏,这意味着结果是动态的。此外,大约有50种不同类型的神经元具有50种不同的整合特征。当前的电子版本缺乏集成的动态通路、神经元之间的连接以及不同的权重和延迟。“问题在于,要制造出有效的产品,你不能[模仿]所有的复杂性,因为我们不理解它,”他说。“如果我们对大脑有一个很好的理论,我们就会弄清楚。问题是,我们只是不知道。”Bensoman经营着一个独特的实验室,致力于了解皮层计算背后的数学原理,旨在创建新的数学模型并将其复制为硅设备。这包括直接监测来自真实视网膜的尖峰信号。目前,本索曼反对忠实地复制生物神经元,称这种方法已经过时。“在硅中复制神经元的想法之所以产生,是因为人们在观察晶体管时看到了一种看起来像真实神经元的机制,所以起初它背后有一些想法,”他说。“我们没有细胞;我们有硅。你需要适应你的计算基板,而不是相反......如果我知道我在计算什么并且我有芯片,我可以优化那个方程并做它以最低的成本,最低的功率,以最低的延迟运行它。”认识到处理能力不需要精确复制神经元,以及DVS相机的发展是当今视觉系统背后的驱动力。虽然系统已经上市,但在完全类人视觉可以商业化使用之前,还需要取得进展。Benosman说,最初的DVS摄像机具有“大而粗的像素”,因为光电二极管本身周围的组件大大降低了填充因子。虽然对开发这些摄像机的投资加速了技术发展,但Benoisman明确表示,今天的活动摄像机只是对早在2000年就开发的原始研究设备的改进。来自索尼、三星和Omnivision的最先进的DVS摄像机具有微小的像素,结合了先进的3D堆叠和降噪等技术。Benosman担心的是当今使用的传感器类型能否成功扩大规模。“问题是,一旦你增加了像素数量,你就会得到大量数据,因为你的速度仍然非常快,”他说。“你可能仍然可以实时处理它,但你会从太多的像素中得到太多的相对变化。这正在杀死所有人,因为他们看到了潜力,但他们没有合适的处理器来支持它。”这个Prophesee客户应用示例显示了图像相机(每个框的左上角)和DVS传感器输出之间的区别。通用神经形态处理器落后于对应的DVS相机。该行业一些最大的参与者(IBMTruenorth、IntelLoihi)的努力仍在进行中。正确的处理器和正确的传感器将是一个无与伦比的组合,Benosman说。“[今天的DVS]传感器非常快,具有超低带宽和高动态范围,因此您可以看到室内和室外,”Benosman说。“这就是未来。它会腾飞吗?绝对会。”“谁能把处理器放在那里并提供完整的堆栈,谁就会获胜,因为它将是无与伦比的,”他补充道。
