【.com快译】深度强化学习是人工智能最有趣的分支之一。它是人工智能领域一些技术上最引人注目的成就的幕后推手,包括在棋盘游戏和视频游戏、自动驾驶汽车、机器人技术和人工智能硬件设计中击败人类冠军。深度强化学习利用深度神经网络的学习能力来解决传统强化学习技术无法解决的复杂问题。深度强化学习比机器学习的其他分支复杂得多,在本文中,将在不深入技术细节的情况下对其进行揭秘。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理用于观察这些状态并通过执行动作与环境交互,这些动作可以是离散的(如拨动开关)或连续的(如转动旋钮)。这些操作导致环境转换到新状态。并根据新状态是否与系统目标相关,对代理进行奖励(如果使代理远离其目标,奖励也可以为零或负数)。状态-动作-奖励循环图状态-动作-奖励的每个循环称为一个步骤。强化学习系统不断循环迭代,直到达到期望的状态或达到最大步数。这一系列步骤称为情节。在每一集的开始,环境被设置为初始状态,代理的奖励被重置为零。强化学习的目标是训练一个代理人采取使其奖励最大化的行动,而代理人的行动生成功能称为策略。代理人通常需要很多集才能学习好的策略。对于简单的问题,几百个情节可能足以让代理学习到一个像样的策略。对于更复杂的问题,代理可能需要数百万个训练周期才能实现。强化学习系统有更细微的差别。例如,RL环境可以是确定性的或非确定性的。在确定性环境中,多次运行一系列状态-动作对总是会产生相同的结果。相反,在非确定性RL问题中,环境状态可能会因代理行为以外的因素(例如,时间的流逝、天气、环境中的其他代理)而发生变化。强化学习应用为了更好地理解强化学习的组成部分,下面给出了几个例子。国际象棋:在这里,环境就是棋盘,环境的状态就是棋子在棋盘上的位置。RL代理可以是玩家之一(或者,这两个玩家可以是在同一环境中单独训练的RL代理)。每局棋局都是一集,从初始状态开始,黑白棋子沿着黑白棋盘的边缘排列。在每一步,智能体都会观察棋盘(状态)并移动棋盘的一部分(采取行动),从而将环境转换为新状态。代理人因达到将死状态而获得奖励,否则为零。国际象棋的一个关键挑战是玩家只有将死对手才能获得奖励,这使得机器学习变得困难。AtariBreakout:Breakout是一款玩家控制桨的视频游戏。有一个球在屏幕上移动,每次它碰到球拍时,它都会弹到屏幕顶部,那里有一排排砖块。球拍每次碰到砖块时,砖块都会被破坏,球会反弹回来。在Breakout中,环境就是游戏画面。状态是桨和砖的位置,以及球的位置和速度。智能体可以采取的行动是向左移动、向右移动或不动。每当球碰到砖块时,代理都会收到正奖励,如果球越过球拍并到达屏幕底部,代理就会收到负奖励。自动驾驶汽车:在自动驾驶中,智能体是汽车,环境是汽车行驶的空间。强化学习智能体通过摄像头、激光雷达和其他传感器观察环境状态。智能体可以执行加速、制动、左转或右转等导航动作。RL智能体因保持正常驾驶、避免碰撞、遵守驾驶规则和遵循交通路线而获得奖励。强化学习功能基本上,强化学习的目标是以最大化奖励的方式将状态映射到动作。但是RL智能体到底学到了什么?RL系统共有三种学习算法:基于策略的算法:这是最常见的优化类型。政策将状态映射到行动。学习策略的RL代理可以创建从当前状态到目标的动作轨迹。例如,实现一个正在优化策略以通过迷宫导航并到达出口的代理。首先,它会随机移动,但不会收到任何奖励。在其中一集中,它在出口处结束并因出口而获得奖励。它追溯其轨迹并根据代理与最终目标的接近程度重新调整每个状态-动作对的奖励。在下一集中,RL智能体将更好地理解给定每个状态要采取的行动,逐渐调整策略,直到收敛到最优解。REINFORCE是一种流行的基于策略的算法。基于策略的函数的优势在于它们可以应用于各种强化学习问题。基于策略的算法的权衡是它们的样本效率低下,并且在收敛到最佳解决方案之前需要大量培训。基于值的算法:基于值的函数学习评估状态和动作的值。基于价值的函数帮助RL智能体评估当前状态和行动的未来回报。基于值的函数有两种变体:Q值和V值。Q函数是对状态-动作对的预期奖励的估计。V函数只估计状态的值。Q函数更常见,因为它更容易将状态-动作对转换为RL策略。两种流行的基于价值的算法是SARSA和DQN。基于价值的算法比基于策略的强化学习具有更高的样本效率。它们的局限性在于它们只能在离散的动作空间中工作(除非对其进行一些更改)。基于模型的算法:基于模型的算法采用不同的方法来强化学习。他们不是评估状态和动作的价值,而是在给定当前状态和动作的情况下预测环境状态。基于模型的强化学习允许代理在采取任何行动之前模拟不同的轨迹。基于模型的方法为代理提供了远见并减少了手动数据收集的需要。在收集训练数据和经验昂贵且缓慢的应用程序(例如,机器人和自动驾驶汽车)中非常有用。但基于模型的强化学习的一个关键挑战是创建一个逼真的环境模型可能非常困难。非确定性环境(例如现实世界)很难建模。在某些情况下,开发人员设法创建了一个接近真实环境的模拟。然而,即使是学习这些模拟环境的模型也非常困难。尽管如此,基于模型的算法已经在国际象棋和围棋等确定性问题中流行起来。蒙特卡洛树搜索(MTCS)是一种流行的基于模型的方法,可应用于确定性设置。组合方法:为了克服各种强化学习算法的缺点,科学家们开发了将不同类型学习函数的元素组合在一起的算法。例如,Actor-Critic算法结合了policy-based和value-based函数的优点。这些算法使用来自价值函数(评论家)的反馈来指导策略学习者(参与者)朝着正确的方向改进,从而产生一个样本效率更高的系统。为什么深度强化学习?到目前为止,关于深度神经网络还没有任何说法。事实上,上述所有算法都可以通过任何方式实现。例如,Q-learning是一种经典的强化学习算法,它在代理与环境交互时创建状态-动作-奖励值表。在处理具有非常少量状态和操作的非常简单的环境时,这种方法很有效。然而,当处理动作和状态的组合数量可能达到巨大数量的复杂环境时,或者环境是不确定的并且可能具有几乎无限的状态时,评估每个可能的状态-动作对变得不可能。在这些情况下,需要一个近似函数来从有限的数据中学习最优策略,这就是人工神经网络所做的。给定正确的结构和优化函数,深度神经网络可以在不遍历系统所有可能状态的情况下学习最优策略。深度强化学习代理仍然需要大量数据(例如,玩Dota和星际争霸的数千小时),但它们可以解决经典强化学习系统无法解决的问题。例如,深度强化学习模型可以使用卷积神经网络从视觉数据中提取状态信息,例如相机输入和视频游戏图形。另一方面,循环神经网络可以从一系列帧中提取有用的信息,例如球的方向,或者汽车是停着还是在移动。这种复杂的学习能力可以帮助RL智能体理解更复杂的环境并将其状态映射到动作。深度强化学习可与机器监督学习相媲美。该模型根据来自环境的反馈生成动作并调整其参数。然而,深度强化学习也有一些独特的挑战,使其不同于传统的监督学习。与模型具有一组标记数据的监督学习不同,强化学习代理只能访问其自身经验的结果。它能够根据在不同训练阶段收集的经验学习最佳策略。但也可能会错过许多导致更好政策的其他最佳轨迹。强化学习还需要评估状态-动作对的轨迹,这比每个训练示例都与其预期结果配对的监督学习问题更难学习。这种增加的复杂性增加了深度强化学习模型的数据要求。但与深度强化学习模型在训练期间收集数据的监督学习不同,监督学习提前管理和准备数据。在某些类型的RL算法中,在一个episode中收集的数据必须在之后丢弃,并且不能用于进一步加速未来episode的模型调整过程。深度强化学习vs.通用人工智能关于AI社区将深度强化学习推进到什么程度存在分歧。一些科学家认为,使用正确的RL架构,可以解决任何类型的问题,包括通用人工智能。这些科学家认为,强化学习与产生自然智能的算法相同,只要有足够的时间和努力,以及适当的奖励,我们就可以重建人类水平的智能。其他人则认为强化学习无法解决人工智能的一些最基本问题。其他人则认为,虽然深度强化学习代理有很多好处,但它们需要明确定义的问题,并且无法自行发现新问题和解决方案。无论如何,不??可否认的是,深度强化学习帮助解决了一些非常复杂的挑战,并将继续成为AI社区当前感兴趣和研究的一个重要领域。【翻译稿件,合作网站转载请注明原译者和出处.com】
