目前,机器学习系统可以解决计算机视觉、语音识别和自然语言处理等众多领域的一系列具有挑战性的问题,但是具有人类推理的灵活性和普遍性的学习使能系统仍然难以捉摸。这引发了很多关于现代机器学习可能遗漏什么的讨论,以及很多关于该领域必须解决哪些大问题的假设。问题来了:这些缺失的成分是因果推理、归纳偏差、更好的自我监督或无监督学习算法,还是其他完全不同的东西?在今年10月的论文中,强化学习大师、加州大学伯克利分校电气工程和计算机科学助理教授SergeyLevine提出并深入探讨了这个问题。该研究认为,使用强化学习可以推导出一个通用的、有原则的、强大的框架来利用未标记的数据,使用通用的无监督或自监督强化学习目标,配合离线强化学习方法,可以利用大型数据集。此外,该研究还讨论了这样一个过程如何与潜在的下游任务更紧密地结合,以及它如何建立在近年来开发的现有技术的基础上。论文地址:https://arxiv.org/pdf/2110.12543.pdf他认为这个问题很难回答,任何回答都不可避免地涉及很多猜测,但我们从人工智能最近的进展中吸取的教训可以提供几个指导原则。第一个教训是需要大量训练数据的大规模通用模型的“不合理”有效性。正如阿尔伯塔大学计算机科学教授RichardS.Sutton在他的文章《The Bitter Lesson》以及众多机器学习领域的其他研究人员所表达的那样,最近机器学习研究的主题一直是“方法大量计算和数据的有效使用通常优于依赖手动设计的先验和启发式方法”。虽然探索这种趋势的原因超出了本文的范围,但可以将其总结(或夸张地描述)如下:当我们将偏见或先验设计到我们的模型中时,我们正在注入我们自己关于世界如何运作的不完美知识,这使得模型产生比我们自己的设计更准确的结果,从而更好地工作。事实上,正如加州大学伯克利分校名誉教授S.E.在《Philosophy and technology II》中所讨论的那样,人们如何获得熟练程度也出现了类似的模式。德雷福斯等。推理往往只为人们提供各种技能的“新手级”表现,而“专家级”表现往往与人们难以表达的各种特例、异常和模式密切相关。正如Dreyfus指出的那样,真正的人类专家很少能够阐明他们所展示的专业知识所遵循的规则。因此,正如人类必须从经验中获得专业知识一样,机器学习也必须如此。研究人员认为,要做到这一点,我们需要强大的、高容量的模型,这些模型可以减少偏见,并且可以处理所需的大量经验。最近的第二个教训是,人类标记和监督在规模上远不如无监督或自我监督学习。我们看到无监督预训练已经成为自然语言处理的标准,并且很可能很快也会成为其他领域的标准。从某种意义上说,这一课是第一课的必然结果:如果大模型和大数据集效果最好,那么任何限制模型和数据集大小的东西最终都会成为瓶颈。人为监督可能是一个瓶颈:如果所有数据都必须由人来标记,那么系统学习所需的数据就会更少。但在这里,我们遇到了一个难题:当前没有人工标签的学习方法常常违反第一课的原则,这需要大量的人类洞察力(通常是特定领域的)来设计允许从未标记的数据集中获得大型模型。有意义知识的自我监督学习目标。这些范围从相对简单的任务(如语言建模)到更深奥的任务(如预测两个转换后的图像是从同一原始图像还是从两个不同的图像生成的)。后者是现代计算机视觉自我监督学习中广泛使用和证明的方法。虽然这些方法在一定程度上有效,但我们将面临的下一个瓶颈可能是决定如何在没有人工标记或手动设计自我监督目标的情况下训练大型模型,以便生成的模型对世界既有深度又有意义。它还可以在执行下游任务时表现出鲁棒性泛化和一定程度的常识性。在作者看来,这种方法可以从当前基于学习的控制(强化学习,RL)算法发展而来,尽管需要大量的算法创新才能使这些方法能够显着扩展到它们迄今为止能够解决的问题类型之外解决。这个想法的核心是为了使用多样化和目标导向的方法来控制环境,自主代理必须对他们的环境有一个因果关系和概括性的理解,从而可以克服当前的监督。传统方法有许多缺点模型。同时,这需要在两个重要方面超越当前的强化学习范式。一方面,强化学习算法需要用户手动指定任务目标,即奖励函数,然后学习完成任务目标所需的行为。当然,这种方式极大地限制了agent在没有人工监督的情况下的学习能力;另一方面,现在常用的强化学习算法本质上不是数据驱动的,而是从在线经验中学习的。尽管此类方法可以直接部署在现实环境中,但在线活动数据收集限制了它们在此类环境中的推广能力。此外,强化学习的许多用例都发生在模拟环境中,几乎没有机会了解现实世界的运作方式。通过行动学习AI系统非常有用,因为它们提供可用于决策的推理,而决策又会影响世界。因此,我们可以得出结论,一般的学习目标应该是为学习那些最有用和最有意义的东西提供动力。我们应该考虑强化学习如何为训练高容量模型提供自动化和原则性的目标,赋予它们理解、推理和概括的能力。然而,这面临两个限制:RL需要手动定义奖励函数,此外,RL需要主动学习范式。为了解决有目标的问题,研究人员已经开始开发新的算法,而不是执行单个用户指定的任务,而是旨在推理所有可能的结果。这些方法的潜在目标包括学习达到任何可行状态,学习最大化潜在目标和结果之间的交互信息,以及学习通过有原则的内在动机目标覆盖广泛的结果。为了解决数据问题,研究人员必须开发强化学习算法以有效利用以前收集的数据集,其中离线强化学习算法提供了以与监督学习几乎相同的方式在不同数据集上训练RL系统的方法,然后一定量的主动进行在线微调以获得最佳性能。例如,想象一个执行各种任务的机器人,当给定用户指定的目标时,它会执行该目标。然而,在机器人的“业余时间”中,机器人会想象它可能产生的潜在结果,然后机器人通过“练习”来产生这些结果。每一次这样的练习都会加深机器人对世界因果结构的理解。当然,在现实世界中以上述方式部署的商业机器人系统在概念上似乎有些牵强。这就是离线RL很重要的原因:由于离线算法独立于经验来源,因此机器人完成用户指定目标所花费的时间与“玩”的时间之比可以调整到极端,甚至是机器人将所有时间都花在执行用户指定的任务上。执行给定任务的系统仍然可以使用它收集的经验作为离线训练数据来学习以达到预期的结果。这样的系统仍然会与环境“玩耍”,但只会在其“记忆”中被虚拟化。机器人系统可能是实例化此类设计的最明显领域,但设计并不局限于机器人。任何具有明确定义的动作概念的系统都可以通过这种方式进行训练,例如推荐系统、自动驾驶汽车、库存管理和物流系统、对话系统等。在许多情况下,在线探索可能不可行,但通过离线RL以无监督的结果驱动目标进行学习是可行的。如前所述,ML系统因其做出智能决策的能力而非常有用。因此,任何有用的ML系统都处于可以做出决策的顺序过程中,因此这种自监督学习过程应该是适用的。无监督和自监督强化学习无监督或自监督强化学习应该满足两个标准:第一,它学习的动作应该以有意义的方式控制世界;控制自己行为的方式。制定自监督RL目标的最直接方法是将其框架化为达到目标状态的问题,这对应于训练目标条件策略π(a|s,g),并选择一些奖励函数r(小号,克)。虽然这个奖励函数本身可能构成一个手动设计的目标,但也可以推导出一个框架,其中奖励函数是解决定义明确的推理问题的结果,例如预测最有可能导致特定结果的动作.此问题公式与密度估计、变分推理、基于模型的强化学习和探索相关。经过训练以实现所有可能目标的政策可以从世界上学到什么?正如最近的研究和RL中的经典文献所指出的那样,解决此类目标约束的RL问题对应于学习动力学模型。直觉上,实现任何潜在的预期结果都需要深入了解行动如何影响长期环境。当然,有人可能会疑惑,为什么不直接学习model-basedRL中比较常用的动态模型呢?模型学习也可能是一种有效的方式来利用不同的数据集,而不需要特定的用户提供的目标。因此,如果ML系统的最终目标是带来期望的结果,我们可以预测最终的目标将与期望的目标一致。然而,目前的方法存在很多局限性,即使是达到目标条件下的强化学习方法也难以使用且稳定性差。但更重要的是,goalreaching并未涵盖RL中可以指定的所有可能任务。即使智能体学会了在给定环境中成功完成所有可能的结果,也可能没有一个期望的结果可以最大化任意用户指定的奖励函数。这种以目标为条件的策略可能已经学习了强大且广泛适用的特征,这些特征可以很容易地针对下游任务进行微调,但未来工作的一个有趣问题是更好地理解更普遍的自监督目标是否可以消除这种限制。目前,研究人员已经提出了很多无监督技能获取的方法,因此我们可以合理地追问是否可以在此基础上推导出更通用、更有原则的自监督强化学习目标。离线强化学习如前所述,即使在无法在线收集的情况下,离线RL也可以应用自监督或无监督RL方法,并且此类方法可以作为将大型和多样化数据集纳入自监督RL的基础。最强大的工具之一。这对于使其成为大规模表示学习的真正可行和通用的工具至关重要。然而,离线RL提出了许多挑战,其中最重要的是它需要回答反事实问题:给定显示结果的数据,我们能否预测如果我们采取不同的行动会发生什么?这是非常具有挑战性的。尽管如此,对离线强化学习的理解在过去几年中取得了重大进展。除了了解分布变化如何影响离线RL之外,离线RL算法的性能也得到了显着提高。该领域已经开发了几种新算法,可提供稳健性保证、离线预训练和在线微调,并解决离线RL设置中的许多其他问题。自我监督的真实世界机器人系统RECON,经过训练可以在前所未见的环境中执行导航任务。使用离线RL训练的自我监督现实世界机器人操作系统可操作模型执行各种目标实现任务。该系统还可以用作通用预训练,以通过传统奖励加速下游任务的获取。此外,离线强化学习的进步也可能显着提高自监督强化学习方法的适用性。使用离线RL工具,我们可以构建不需要任何自我探索的自我监督RL方法。就像上面提到的“虚拟游戏”一样,我们可以将离线RL与目标条件策略相结合,以完全从以前收集的数据中学习。然而,重大挑战依然存在。离线RL算法继承了标准或深度RL学习的许多困难,包括对超参数的敏感性。而且,由于我们无法执行多个在线实验来确定最佳超参数,因此加剧了这些困难。在监督学习中,我们可以使用验证集来处理这些问题,但离线强化学习中却缺少对应的等价集(equivalent)。我们需要更稳定可靠的算法和更高效的评估方法,让离线强化学习方法真正得到广泛应用。文中动画来自:https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001
