当前位置: 首页 > 科技观察

系统回顾深度强化学习预训练,线上线下研究就够了

时间:2023-03-22 01:21:59 科技观察

近年来,强化学习(RL)在深度学习的推动下快速发展,从游戏到机器人等领域的各种突破激发了人们对它的兴趣设计复杂的大规模RL算法和系统。然而,现有的强化学习研究普遍允许智能体在面对新任务时从头开始学习,难以利用预先获得的先验知识来辅助决策,导致计算开销较大。在监督学习领域,预训练范式已被验证为获取可迁移先验知识的有效途径。通过在大规模数据集上的预训练,网络模型可以快速适应不同的下游任务。类似的想法在RL中也有尝试,尤其是最近对“generalist”agents的研究[1,2],让人不禁思考在RL领域是否也能像GPT-3一样诞生[3]Genericpretrained楷模。然而,预训练在强化学习领域的应用面临诸多挑战,如上下游任务差异显着,如何高效获取和利用预训练数据,如何有效迁移先验知识等。阻碍预训练范式在强化学习中的应用。申请成功。同时,以往研究考虑的实验设置和方法存在很大差异,这使得研究人员很难在真实场景中设计出合适的预训练模型。为了梳理预训练在强化学习领域的发展以及未来可能的发展方向,上海交通大学和腾讯的研究人员撰写了一篇综述,讨论现有强化学习预训练在不同情况下的细分方法和需要解决的问题设置。论文地址:https://arxiv.org/pdf/2211.03959.pdfRL预训练简介强化学习(RL)为顺序决策提供了通用的数学形式。通过强化学习算法和深度神经网络,智能体以数据驱动的方式通过优化指定的奖励函数进行学习,在不同领域的各种应用中取得了超人的表现。然而,尽管RL已被证明可以有效解决特定任务,但样本效率和泛化能力仍然是阻碍RL在实际应用中使用的两大障碍。在RL研究中,一个标准的范式是让agent从自己或他人收集的经验中学习,并通过针对单个任务的随机初始化来优化神经网络。相比之下,对于人类而言,对世界的先验知识在决策过程中有很大帮助。如果任务与以前见过的任务相关,人类倾向于重用已经学过的知识以快速适应新任务,而不是从头开始学习。因此,RL代理存在数据效率低下的问题,并且与人类相比容易过度拟合。然而,机器学习其他领域的最新进展积极提倡利用从大规模预训练中建立的先验知识。通过对广泛数据的大规模训练,大型基础模型可以快速适应各种下游任务。这种预训练-微调范式在计算机视觉和自然语言处理等领域已被证明是有效的。然而,预训练尚未对强化学习领域产生重大影响。虽然这种方法很有前途,但设计大规模RL预训练的原则面临许多挑战。1)领域和任务的多样性;2)数据来源有限;3)难以快速适应解决下游任务。这些因素源于RL的内在特征,需要研究人员特别考虑。预训练对于RL有很大的潜力,这项研究可以作为对这个方向感兴趣的人的起点。在本文中,研究人员试图对现有的深度强化学习预训练工作进行系统回顾。近年来,深度强化学习预训练经历了数次突破。首先,基于专家演示的预训练使用监督学习来预测专家采取的行动,这已经应用于AlphaGo。为了追求较少监督的大规模预训练,无监督RL领域发展迅速,允许智能体在没有奖励信号的情况下从与环境的交互中学习。此外,离线强化学习(offlineRL)的快速发展促使研究人员进一步考虑如何使用未标记和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用预训练范式铺平了道路。之前RL在在线预训练方面的成功是通过密集且设计良好的奖励函数实现的。传统的RL范式在许多领域取得了巨大进步,但在扩展到大规模预训练时面临两个关键挑战。首先,强化学习智能体容易过拟合,使用复杂任务奖励预训练的智能体很难在未见过的任务上取得良好表现。此外,设计奖励函数通常非常昂贵,需要大量的专家知识,这在实践中无疑是一个很大的挑战。没有奖励信号的在线预训练可能成为在没有人工参与的情况下学习一般先验知识和监督信号的可用解决方案。在线预训练旨在在没有人工监督的情况下通过与环境的交互来获取先验知识。在预训练阶段,agent可以在没有外部奖励的情况下长时间与环境交互。这种解决方案,也称为无监督强化学习,近年来受到研究人员的积极研究。为了激励代理人在没有任何监督信号的情况下从环境中获取先验知识,一种行之有效的方法是为代理人设计内在奖励,鼓励代理人收集不同的经验或掌握可转移的技能,并相应地设计奖励。先前的研究表明,代理可以通过具有内在奖励和标准RL算法的在线预训练快速适应下游任务。离线预训练虽然在线预训练可以在没有人工监督的情况下取得很好的预训练效果,但是对于大规模应用来说仍然有局限性。毕竟,在线交互和需要在大型和多样化的数据集上进行训练在某种程度上是相互排斥的。为了解决这个问题,人们往往希望将数据收集和预训练解耦,直接使用从其他智能体或人类那里收集的历史数据进行预训练。一种可能的解决方案是离线强化学习。离线强化学习的目标是从离线数据中获得奖励最大化的强化学习策略。它面临的一个基本挑战是分布偏移问题,即训练数据和测试期间看到的数据之间的分布差异。现有的离线强化学习方法侧重于如何在使用函数逼近时解决这一挑战。例如,政策约束方法明确要求学习的政策避免采取数据集中未见的行动,价值正则化方法通过将价值函数拟合到某种形式的下限来缓解价值函数的高估问题。然而,离线训练的策略是否可以推广到离线数据集中未见的新环境仍未得到充分探索。或许,我们可以避免学习强化学习策略,而是使用离线数据来学习有利于下游任务收敛速度或最终性能的先验知识。更有趣的是,如果我们的模型可以在没有人工监督的情况下利用离线数据,它就有可能从海量数据中获益。在本文中,研究人员将这种设置称为离线预训练,代理可以从离线数据中提取重要信息(例如,良好的表示和行为先验)。针对单一环境和单一模态的通用代理的预训练方法主要集中在上述在线和离线预训练设置上,而最近,该领域的研究人员专注于建立单一的通用决策人们对模型(例如Gato[1]和Multi-gameDT[2])的兴趣激增,使同一模型能够处理不同环境中不同模式的任务。为了使智能体能够从各种开放式任务中学习和适应,该研究希望利用视觉感知和语言理解等不同形式的大量先验知识。更重要的是,如果研究人员能够成功地在RL和其他领域的机器学习之间架起一座桥梁,结合以往的成功经验,或许有可能建立一个能够完成各种任务的通用代理模型。