当前位置: 首页 > 科技观察

从认知到进化,详述强化学习的两大最新突破

时间:2023-03-14 16:52:31 科技观察

大数据文摘编译:李磊、钱天培深度强化学习(deepRL)近年来在人工智能领域取得了骄人的进展,在人工智能等领域打败了人类雅达利游戏、围棋和扑克。通过将表征学习与奖励驱动行为相结合,深度强化学习在心理学和神经科学领域引发了许多讨论。然而,深度强化学习过程往往需要大量的训练数据。正因为如此,大多数人认为这些算法可能与人类的学习有根本的不同。事实上,这种担忧只出现在深度强化学习技术的早期。随后的AI研究工作使深度RL系统能够更快、更有效地学习。这些AI研究中两个特别有趣和有前途的技术是情景记忆(memoryofspecificevents,情景记忆)和元学习(learninghowtolearn,元学习)。今天,我们将重点关注这两项新技术——它们可能会给强化学习带来重要的变化。作为一种AI技术,利用情景记忆和元学习的深度RL方法也可以应用于心理学和神经科学,尤其是这些技术隐含的快速和慢速学习模式之间的基本联系。强大但低效:深度强化学习的第一波浪潮过去几年,人工智能(AI)研究发生了革命性的变化,神经网络或“深度学习”方法的复兴使图像识别、自然语言处理和许多其他领域成为可能.这些发展引起了心理学家、心理语言学家和神经科学家的兴趣,他们很好奇人工智能的发展是否会导致关于人类认知和大脑功能的新假说。从这个角度来看,人工智能研究中一个特别引人入胜的领域是深度强化学习(deepRL)。深度强化学习将神经网络建模与强化学习相结合,强化学习是一组通过奖励和惩罚而非明确指令来驱动学习的方法。经过几十年的梦想,深度强化学习已成为过去5年人工智能研究中竞争最激烈的领域之一,在视频游戏、扑克牌、多人游戏和复杂棋盘游戏(包括围棋和国际象棋)中都有应用。其他方面的表现超越了人类。深度强化学习强化学习(RL)的重点是学习行为策略的问题,即从状态或情况到行为的映射,从而最大化长期奖励的积累。在简单的情况下,这样的策略可以表示为枚举状态和操作的查找表。在复杂的情况下,需要使用参数化函数来间接表达策略。早期实现(90年代)使用多层(或深度)神经网络,但在集成深度神经网络和RL时遇到了困难。直到2015年,深度强化学习在复杂领域(如Atari视频游戏)的突破,以及随后在深度强化学习改进和扩展方面的快速发展,使其得以应用于围棋等复杂任务。作为一种人工智能技术,深度强化学习似乎在心理学和神经科学中有着特殊的根源。深度强化学习的学习驱动机制最初受到动物训练研究的启发,该机制被认为与基于奖励(产生多巴胺)学习的神经机制密切相关。同时,深度强化学习利用神经网络学习支持泛化和迁移的强表示,这与生物大脑的关键能力非常相似。考虑到这一点,深度强化学习似乎为那些研究人类/动物学习的人提供了行为和神经科学方面的大量想法和假设。事实上,研究人员已经开始注意到这一点。尽管如此,第一波深度强化学习研究还是提出了一些警告。首先,深度强化学习系统的学习方式与人类完全不同。有人认为,这种差异体现在人类学习与深度RL的不同采样效率上。采样效率是指学习系统达到任何选定的目标性能水平所需的数据量。在这个指标上,第一波深度强化学习系统确实与人类学习者有着根本的不同。例如,要在Atari视频游戏或国际象棋等任务中达到专业水平的表现,深度RL系统需要比人类职业选手多几个数量级的训练数据。简而言之,深度强化学习训练速度太慢,无法生成合理的人类学习模型,至少在初始系统中是这样。但很快,深度RL研究出现了重大创新。这些创新降低了对训练数据量的要求,深度强化学习的采样效率显着提高,从而可以生成人类学习模型,这对心理学和神经科学来说是一个很好的机会。研究找到了新的起点。在本文中,我们主要考虑两种提高样本效率的关键方法:episodicdeepRL(situationaldeepRL)和meta-RL(元强化学习)。我们研究了这些技术如何实现快速深度强化学习,以及它们对心理学和神经科学的潜在影响。深度RL缓慢的原因快速RL技术的关键起点是理解为什么最初的深度RL方法如此缓慢且样本效率低下。在这里,我们谈两个主要原因。在本文的最后,我们将回过头来检查这两个原因之间的联系。第一个原因是增量参数调整,也可以理解为梯度下降算法带来的局限性。早期的深度RL方法(仍在AI研究中广泛使用)采用梯度下降来描述深度神经网络从感知输入到动作输出的曲线。在这种学习形式中所做的调整必须很小,以便最大限度地泛化并避免覆盖以前的学习(有时称为“灾难性干扰”)。这种对小步长调整的需求是早期深度RL方法运行缓慢的原因之一。第二个原因是弱归纳偏差。学习理论的一个基本原则是“偏差-方差权衡”,它存在于任何学习过程中。归纳偏差是指机器学习算法在学习过程中对某些类型假设的偏好。学习过程对学习模式的初始假设越强(即学习过程的初始归纳偏差越强),完成学习所需的数据就越少(假设初始归纳偏差与数据中的内容相匹配)。具有弱归纳偏差的学习过程可以掌握更广泛的模式(更大的方差),但通常样本效率较低。事实上,强归纳偏差(只考虑对输入数据的狭隘假设)是让学习变得快速的原因。更重要的是,通用神经网络是极低偏差的学习系统:它们有很多参数(不同的权重),需要适应各种类型的数据。这意味着早期深度RL模型中使用的通用神经网络通常样本效率极低,需要大量数据才能学习。上述两个因素——增量参数调整和弱归纳偏差——共同导致了早期深度RL模型运行缓慢的事实。然而,随后的研究表明,这两个因素都可以得到缓解,从而使深度强化学习能够以更有效的样本方式进行学习。在下文中,我们考虑两种具体技术,一种解决增量参数调整问题,另一种解决弱诱导偏差问题。除了它们在AI领域的影响之外,这两种AI技术都与心理学和神经科学有着明确的联系,我们将对此进行详细介绍。EpisodicDeepRL:通过EpisodicMemory快速学习如果增量参数调整是深度RL速度慢的原因,则解决方法可能是避免此类增量更新。纯粹通过控制梯度下降来优化学习率可能会导致灾难性的干扰问题。最近的研究表明,另一种方法可以实现相同的目标,即保留对过去事件的明确记录,并直接使用此记录作为做出新决策的参考点。这种方法称为情景RL,类似于机器学习中的“非参数”(不对目标函数的形式做出强假设)方法,例如K-最近邻算法,以及“实例”或“心理学学习理论范式”。“教学。当遇到新情况并且必须决定采取什么行动时,程序会将当前情况的内部表示与过去情况的存储表示进行比较。基于与现在最相似的过去情况,选择关联动作。当多层神经网络用于计算内部状态表示时,我们将生成的算法称为“episodicdeepRL”。episodicRL的成功取决于用于计算状态相似度的状态表示。后来的研究表明,可以通过使用梯度下降学习来形成这些状态表示来提高性能。这些结果解释了Atari学习环境中57款游戏的情景RL的强大性能和高数据效率,展示了结合慢速(表示)学习和快速(估计)学习的好处。在情景深度RL中,与标准增量方法不同,从每个体验事件中获得的信息可以立即用于指导行为。然而,episodicdeepRL可以消除早期deepRL的缓慢因素并进行快速学习,主要是因为它减慢了增量学习。这种增量学习是连接权重的渐进式学习,允许系统为每个新观察到的情况形成有用的内部表示或嵌入。这些表示的格式是根据经验学习的,使用与标准深度RL基础相同类型的增量参数更新。最终,这种较慢的学习形式加速了情景深度RL。即通过慢速学习实现快速学习。快速学习对慢速学习的依赖并非巧合。正如我们将在下面讨论的那样,这是一个基本原则,不仅适用于人工智能,也适用于心理学和神经科学。然而,在考虑这个一般点之前,我们将检查它在第二种快速深度RL技术——元RL中的作用。Meta-RL:通过学习如何学习来加速深度RL如前所述,标准深度RL很慢,此外还有增量更新和弱诱导偏差。正如偏差方差权衡概念中所述,快速学习需要对要学习的模式结构进行合理数量的假设。假设设置得越薄(越窄),学习率就会越快。然而,如前所述,这里有一个问题:如果假设集包含正确的假设,那么缩小的假设集只会提高学习速度。虽然强归纳偏差可以加快学习速度,但前提是学习者采用恰好适合学习材料的特定偏差。于是出现了一个新的学习问题:学习者如何知道采用何种归纳偏差?看到这个问题,简单的答案就是吸取过去的经验。显然,这就是我们日常生活中发生的事情。例如,学习使用新的智能手机。在这种情况下,一个人过去使用智能手机和其他相关设备的经历可以用来假设新手机应该如何工作,也可以用来指导摸索手机。这些初始假设对应于偏差方差权衡中的“偏差”,它们会影响快速学习的能力。没有这些初始偏差(即具有更高“方差”)的学习者会考虑更广泛的关于手机操作的假设,但代价是学习速度。利用过去的经验来加速新的学习,在机器学习中被称为元学习。其实这个想法起源于心理学,叫做“学习如何学习”。这个词最早出现在一篇心理学研究论文中,作者哈洛给出了一个能很好反映这个词的实验。在实验中,一组猴子被展示了两个不熟悉的物体,并被允许捡起其中一个。物体下方可能是食物奖励,也可能是空的。然后将这两个物体再次放在猴子面前,但位置可以颠倒,这个过程重复6轮。然后用两个猴子不熟悉的新物体重复之前的试验6次。重复更改对象等。随着试验次数的增加,猴子们发现了一个简单的规则:无论物体是放在左边还是右边,总有一个物体下面有食物,另一个物体下面没有食物。因此,当给定一对新物体时,猴子只需要尝试一次就知道该选择哪个。这是一个简单而生动的学习如何学习的例子。现在回到机器学习,新的研究工作展示了如何使用元学习来加速深度学习,并且有很多方法可以实现这一想法。其中一种方法与神经科学和心理学有着特殊的联系。在这种方法中,循环神经网络在一系列相互关联的RL任务上进行训练。网络中的权重调整非常缓慢,因此反映了跨任务的共同点,但对于任何单个任务解决方案都不能快速更改。在这种情况下,循环网络的活动状态可以实现自己的RL算法,根据过去任务产生的知识快速解决每个新任务。也就是说,一种RL算法会产生另一种算法,因此得名“元RL”。与情景深度RL一样,元RL也与快速学习和慢速学习之间的紧密联系有关。循环网络的权重在任务之间缓慢更新,允许跨任务的共性“内置”到循环网络的状态中。由此产生的网络状态变化使一种新的学习算法能够快速解决新问题,因为缓慢学习的潜在过程为它们提供了有用的归纳偏差。这是又一个从慢学中产生快学,从慢学中提速的例子。EpisodicMeta-RL注意!我们上面讨论的两种技术并不相互排斥。事实上,最近的研究表明,元学习和情景控制可以整合并相辅相成。如前所述,在EpisodicMeta-RL中,元学习发生在循环神经网络中。叠加在其之上的是情景记忆系统,它可以恢复循环神经网络的活动模式。与情景深度RL一样,情景记忆对一组过去的事件进行分类,这些事件可以根据当前上下文进行查询。然而,EpisodicMeta-RL不是将上下文与估值联系起来,而是将它们与循环网络内部或隐藏单元的存储活动模式联系起来。这些模式很重要,因为通过元强化学习,它们总结了代理从与各个任务的交互中学到的东西。在episodicmeta-RL中,当代理遇到与过去类似的情况时,它允许以前学习的信息影响当前的策略。实际上,情景记忆允许系统识别以前遇到的任务并检索存储的解决方案。通过模拟“强盗决策”任务和导航任务,Ritter等人。发现episodicmeta-RL和普通的meta-RL一样,学习了很强的归纳偏差,使其能够快速解决新任务。更重要的是,当面对过去类似的任务时,episodicmeta-RL会立即检索并恢复之前生成的解决方案,从而无需重新学习。第一次遇到新任务时,系统速度受益于元强化学习的快速性;在随后遇到新任务时,系统速度受益于情景控制赋予的一次性学习能力。对神经科学和心理学的影响正如我们在文章开头看到的那样,由于采样效率低下,人们质疑深度RL与人类或其他动物学习的相似性。从心理学和神经科学的角度来看,episodicdeepRL和meta-RL的一个重要含义是,它们通过证明deepRL实际上并不慢来消除这种怀疑。本文在一定程度上论证了深度强化学习可以作为人类和动物学习的候选模型。然而,除此之外,情景深度RL和元RL的细节指向心理学和神经科学中一些有趣的新假设。第一个是情景深度RL。我们注意到它与经典的基于实例的人类记忆学习模型之间的有趣联系。EpisodicRL为基于实例的处理如何促进奖励驱动学习提供了可能的解释。有趣的是,最近关于动物和人类强化学习的研究越来越多地认识到情景记忆的潜在贡献,有证据表明状态和行动价值估计是基于特定过去行动结果观察的检索记忆。至于元强化学习,它对心理学和神经科学也有值得注意的潜在影响。一些研究提出了从元强化学习的元素到神经结构和功能的直接映射。一系列计算机模拟表明,元强化学习可以解释行为和神经生理学中的各种经验发现。快速和慢速RL:更广泛的影响在讨论情景RL和元RL时,我们强调“慢速”学习在实现快速、样本高效学习方面的作用。正如我们所见,在元强化学习中,缓慢且基于权重的学习的作用是建立归纳偏差,可用于指导推理,从而快速适应新任务。episodicRL的缓慢增量学习是类似的。EpisodicRL本质上依赖于对情境或状态之间相似性的判断。缓慢的学习塑造了状态的内部表征,导致了一组关于哪些状态最密切相关的归纳偏差。如果我们更仔细地观察episodicRL,我们可以看到归纳偏差是学习架构的一部分。EpisodicRL有一个平滑原则的假设:相似的状态通常会产生相似的动作。这种归纳偏差不用于学习,而是连接到定义情景RL的学习系统的结构中。在当前的AI术语中,这属于“架构”或“算法偏差”类别,而不是元RL中的“学习偏差”。无论是通过学习还是通过直接手工设计架构或算法偏差,当前的人工智能研究主要集中在寻找有用的归纳偏差来加速学习。事实上,后一种方法本身就是当前人工智能中神经网络理论复兴的一个主要原因。这种复兴是由卷积神经网络引发的,它建立了一个非常特殊的结构偏差,与图像识别中的平移不变性相关。然而,在过去的几年里,越来越多的人工智能研究或多或少地关注了归纳偏差的问题。在较高的层面上,这些技术发展与心理学中一些长期存在的问题惊人地相似。正如我们已经指出的,归纳偏差可能是习得的想法起源于心理学,并且在心理学研究中不时被提及。然而,神经网络中的元学习可以提供新的应用场景来探索这种学习如何学习过程的机制和原因,特别是在RL的背景下。心理学,尤其是发展心理学,长期以来一直认为人类具有某种内在的归纳偏差。然而,架构偏差的概念和神经网络学习算法中内置偏差的概念尚未被广泛接受。目前的深度学习和深度强化学习方法都提供了一种研究工具,可以促进心理学领域的进一步探索。值得注意的是,虽然人工智能明确区分了通过学习获得的归纳偏差和人手“添加”的偏差,但在生物学的语境下,两者也有更多的普遍共性。具体来说,人们可以将架构和算法偏差视为由进化驱动的不同学习过程引起的。在这里,进化是一个“缓慢”的学习过程,它逐渐发展出导致加速终身学习的架构和算法偏差。因此,元学习不仅在生命周期中发挥作用,而且在进化中发挥作用。有趣的是,这种观点暗示进化不会选择真正“通用”的学习算法,而是选择那些利用大脑进化的特定环境中的规律性的算法。最近的机器学习更深入地研究了构建代理架构的方法,以及通过自然选择的进化算法构建奖励函数。这些新进展再次证明了它们在探索神经科学和心理学方面的意义。结论深度RL研究领域的快速发展对心理学和神经科学具有巨大的影响,因为它专注于表征学习和目标导向行为。在这篇论文中,我们描述了最新形式的深度强化学习,它克服了采样效率低下这一明显问题,让深度强化学习能够“快速”工作。这些技术不仅加强了深度强化学习与心理学和神经科学的潜在联系,而且还通过情景记忆和元学习等丰富和多样化了这些潜在联系。此外,深度强化学习的研究越来越多地为新的研究提供具体和详细的??指导。心理学和神经科学。正如我们所强调的,有效采样深度RL***研究的一个关键含义是,快速学习必然依赖于构建快速学习表示和归纳偏差的慢速学习。这种计算辩证法为研究大脑中的多个记忆系统及其进化起源提供了一个理论框架。然而,除了本文讨论的那些之外,人类学习可能涉及多个交互过程,因此我们认为任何深度RL模型都需要整合所有这些以更接近真实的人类学习。在更广泛的层面上,理解强化学习中快与慢之间的关系为心理学和神经科学提供了令人信服的证据。的确,这可能是人工智能、神经科学和心理学之间协同作用的关键领域,也是认知科学长期追求的领域。一些值得讨论的问题AI方法能否将高效采样的深度RL扩展到现实人类生活中的各种场景?这些方法能否为人类的各种智能产生抽象的本质?为此可能需要什么样的培训环境?灵活和高效采样的人类学习机制是否与人工智能目前正在探索的机制相关?如果是这样,他们的神经实现是什么?目前人工智能技术的重点,梯度下降学习,会在大脑中吗?,还是其他一些机制发挥同样的作用?在人类学习者操作的环境中,最重要的学习归纳偏差是什么?这些偏见在多大程度上是通过进化遗传或教养获得的?学到什么程度?使人类学习者如此有效的原因之一是人类是主动的、战略性的信息收集者。那么,构成和激发人类探索的原则是什么?我们如何在人工智能系统中复制这些原则?相关报道:https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0【本文为栏目组织大数据文摘原创文章,微信公众号》大数据文摘(id:BigDataDigest)》】点此查看作者更多好文