当前位置: 首页 > 科技观察

判别式或生成式:哪个代表视觉理解的未来?

时间:2023-03-19 19:35:59 科技观察

视觉系统的大部分基本工作都以非常简单的方式完成:向动物展示图像,测量其神经元的反应,再展示另一个,然后重复。这种方法基于这样的假设,即视觉处理可以理解为输入到输出的死记硬背转换。科学家研究细胞时,就好像它们只是对图像中存在的视觉特征做出反应,然后这些反应可用于区分不同的图像。虽然这种对视觉系统的理解在很多方面都卓有成效,但它始终让一些研究人员持怀疑态度。一些人认为,对视觉系统的解剖学和动力学的研究结果表明,它并不是简单地以“自下而上”的方式做出反应。相反,它可能会根据反映世界运作方式的模型生成一些响应。“判别式”和“生成式”视觉方法之间的争论已经持续了几十年。尽管这两种模型都旨在解释视觉处理,但这两种方法源于不同的哲学和数学传统。这种情况的后果是不同的研究人员只使用他们喜欢的方法而不是合作,从而在两种范式之间造成差距。近年来,计算机视觉和计算神经科学的进步都证明了这种二元划分方法的局限性,推动了更广泛的视觉处理建模的发展。这就需要双方代表聚在一起,梳理一下各自的观点,共识和分歧在哪里。2021年9月,研究人员在虚拟认知计算神经科学(CCN)会议的生成对抗协作(GAC)开幕式上提交了关于该主题的提案。生成对抗协作是CCN在2020年发起的一个过程,旨在让研究人员能够明确有效地表达科学分歧。研究人员可以向CCN提交有争议的主题提案,并会选择少量提案在GAC活动中进行讨论。第二年,GAC组织者提交了一份立场文件,概述了这些主题领域的进展计划,并在当年的会议上展示了进展情况。2021年的GAC有一个主题是视觉系统中的生成模型和判别模型,有11名研究人员组成的团队。一些使用判别方法,一些使用生成方法,但所有人都对探索两者之间的交集感兴趣。根据他们的提议,该活动旨在确定“我们的知识遗产是否过度分化了我们对视觉算法的直觉,使我们陷入错误的二分法。”“易而快”与“灵活而慢”之争要构建辩论框架,首先要知道什么是判别系统和生成系统。但也许这是分歧的第一点。在统计学中,判别模型和生成模型有简单的定义。判别模型是一种计算给定观察的潜在变量或潜在原因的概率的模型。在视觉处理方面,这些潜在变量是世界上的物体,观察是打在视网膜上的光。例如,该模型对图像中的像素进行一些计算,以确定最有可能存在哪些对象。相反,生成模型计算潜在变量和观测值的联合概率。这需要知道某些对象一般存在的可能性有多大,而不仅仅是它们在给定图像中的可能性有多大。尽管这些不同概率分布的计算在技术上有很大不同,但当这些计算映射到大脑时,两者之间的界限开始模糊。“如果你仔细观察,一切都会崩溃,”哥伦比亚大学神经科学家兼GAC发言人NikoKriegeskorte说。该领域缺乏对生成模型和判别模型的严格定义,神经科学研究文献中出现的最好描述为一组松散的关联。代表判别端的模型往往是前馈的、简单的和快速的。例如,深度前馈卷积神经网络是判别处理的一个很好的例子。这些模型通常以监督方式进行训练:它们学习将图像映射到标签,例如学习对猫和狗的图像进行分类。生成的模型可以接收新图像并快速标记它。像这些网络这样的判别系统通常以自下而上的方式工作,对它们的即时输入形成简单的反应。由于它们的训练方式,它们也被认为专门用于特定任务,例如对象识别。相比之下,生成模型速度较慢,但??它们也更灵活、更严谨、更具表现力。他们通常依靠无监督训练方法,目的是对世界的统计数据和结构有一个基本的了解,然后可以将其用于预测。例如,在猫比狗更常见的世界中,生成模型可能会使用爪子的视觉来预测长胡须的存在,并最终得出图像中有猫的结论。在结构上,这些模型更有可能具有循环连接,特别是来自较高视觉区域或将预测信号传递给视觉系统的额叶皮层的自上而下连接。它们也更有可能以概率分布表示信息,这可能导致与任何给定视觉感知相关的不确定性。科学家们有理由相信这两个过程都可能在大脑中发挥作用。生成方法的支持者指出了它们的直觉吸引力和与内省的一致性。毕竟,我们可以以心理图像和梦想的形式产生视觉感知;如果没有任何自上而下的影响或内部世界模型,这种现象是不可能发生的。学习关于世界如何运作的一般原则也可以使产卵系统更适应新环境。在GAC活动期间,麻省理工学院的神经科学家和西蒙斯全球大脑协作组织(SCGB)的研究员JoshTenenbaum在他的演讲视频中应用图像过滤器来说明这一点:因为我们的视觉系统知道视频可以用不同的方式过滤视觉效果,例如颜色和对比度的变化,因此即使它们对我们来说是新的,我们也能够通过应用这种效果来识别图像的内容。判别方法的支持者指出在解释神经数据方面取得了切实的成功。经过训练以对图像进行分类的深度卷积神经网络提供了一些最佳模型,用于预测响应复杂视觉输入的真实神经活动。我们也知道视觉系统的前馈路径可以非常快速地实现物体分类,这与判别模型是一致的。这两种模式处于不同的发展阶段,很难比较它们的强弱。当前的判别模型可以出于实际目的处理图像,这使它们比生成模型更具优势。然而,这可能更多地反映了研究人员可以在计算机上做什么,而不是大脑可以做什么。目前,生成模型很难训练和构建,并且只能解决玩具问题,而不是视觉系统面临的真正挑战。如果没有像今天的判别模型那样擅长图像处理的模型,生成方法就没有机会在神经活动的定量预测方面击败判别模型。他们之间的这种比较有点像今天的汽车与自动驾驶汽车的比较。自动驾驶汽车可能有一些不错的功能,但如果您今天需要四处走动,它们将无济于事。“归根结底,你必须有一个模型来进行测试,”麻省理工学院神经科学家兼SCGB研究员JimDiCarlo说。在GAC活动中,判别端的DiCarlo展示了在对象识别上训练的判别模型预测神经活动的强大能力。“一旦有人建立了新的图像计算模型,只能通过当时的实验数据来判断模型相对于其他模型的准确性。”这在一定程度上降低了工程和判别方法的维度。争议。即使生成方法有许多直观的优点,研究人员仍然需要让它们在实践中发挥作用,以便与大脑活动进行大规模比较。目前,他们不能。但生成模型并不总是处于劣势。鉴于它们的特性,尤其是它们无需大量标记数据即可进行训练的能力,机器学习研究人员希望它们在未来变得有用。“重要的是,我们不要将我们认为容易的事情或我们现在可以做的事情与大脑可以做的事情混淆,”罗切斯特大学的神经科学家拉尔夫·海夫纳(RalfHaefner)在活动中说。探索的十字路口正如GAC小组成员所指出的,许多模型并不完全适合某一类别。存在循环判别模型,一些生成模型可以很快,等等。哥伦比亚大学神经科学家本杰明彼得斯在讨论中说,强迫大脑适应统计学家和工程师定义的盒子是有风险的。“我们不应该太死板,而是要从算法中汲取灵感。”例如,视觉系统可以使用判别组件来快速轻松地进行视觉感知,但仍包含生成元素以实现更深层次的功能。或者,内置的生成模型可以使用其对世界的预测来帮助为大脑的辨别部分提供训练数据。在她的演讲中,哈佛神经科学家TaliaKonkle主张承认感知(一种辨别过程)与认知(一种更具生成性的过程)之间的分离。一些混合方法在机器学习领域变得流行。例如,在对比学习这种训练方法中,网络学习将相似的事物(例如同一图像的不同裁剪)分组并区分不同的事物。这种方法有一个生成组件——训练不需要明确的目标标签,它创建的表示可以捕获数据中的大量相关统计数据。同时,它也可以很好地应用于判别模型的典型前馈结构。它确实学会了区分相似和不相似的图像。鉴于这些模型可能属于同一范围,一些研究人员质疑关注二元划分是否有意义。“这些真的是我们想要收敛的术语吗?”DeepMind的KimStachenfeld问道。科学家和工程师承认,生成式处理和判别式处理之间的明确区分对于构建高效系统而言并不是必需的。这种区别对于理解大脑也不是必需的。“如果你认为这是一个非此即彼的问题,那你就错过了重点,”Kriegeskorte说。“我不确定10到20年后我们是否仍会以这种二元方法考虑这个问题。”GAC的部分目的是探索判别模型和生成模型之间的鸿沟,以此作为推动该领域向前发展的一种方式。Stachenfeld认为,尝试将视觉系统方法组织成两个阵营,然后“看看还剩下什么”,从两个阵营之外的东西中看到该领域需要什么,是很有用的。新术语和新想法。其他人还认为,这种讨论有助于阐明每种建模方法的哪些特征是真正必要的,以及大脑中如何考虑每种思路的证据。Kriegeskorte指出,他现在在使用这些模型的术语时“避免了过去经常犯的愚蠢错误”。这些概念上的进步重要吗?真正的考验将是它们对实验的影响有多大。Kriegeskorte说,实验设计是一个很难取得真正进展的领域。加州理工学院神经科学家和SCGB研究员DorisTsao提出了一个实验途径:隔离神经系统的生成成分,并在没有关于当前世界状态的前馈输入的情况下研究其对神经活动的影响。先前对患有胼胝体(连接左右大脑半球的神经纤维横束)病变患者的研究提供了一些线索。随着两个半球之间的部分通路被切断,研究人员通过左眼向右半球呈现“骑士”等词,使患者(在左半球反馈连接的影响下)描述视觉场景骑士,即使没有任何视觉刺激或有意识地意识到这个词。Tsao认为,在动物身上进行类似的实验可以帮助确定负责召唤此类图像的自上而下的生成途径。然而,GAC参与者对于生成系统的人工隔离是否有助于阐明它们在正常情况下的功能存在分歧。大多数与会者同意,需要更多关注大脑生成能力的实验。宾夕法尼亚大学的神经科学家和SCGB调查员NicoleRust提出了研究视觉预测的案例,例如预测视频中接下来会发生什么的能力。受到生成处理的好处的启发,DiCarlo说他计划做更多的实验。明年,该小组将继续讨论推进研究的具体步骤,并通过出版物和活动与更广泛的社区分享他们的进展。