如果机器能像人一样使用电脑,就可以帮助我们完成日常任务。在这种情况下,我们也有可能利用大规模的专家演示和人类对交互的判断,这两个因素推动了人工智能最近的成功。最近关于3D模拟世界中的自然语言、代码生成和多模式交互行为的工作(DeepMindInteractiveAgentsTeam2021)已经产生了具有异常表现力、上下文感知和丰富常识的模型。这项研究有力地证明了两个组成部分的力量:在机器和人类之间保持一致的丰富的组合输出空间;以及告知机器行为的大量人类数据和判断。一个包含这两个组件但受到较少关注的领域是数字设备控制,它涉及使用数字设备来完成许多有用的任务。由于几乎完全使用数字信息,该领域在数据采集和控制并行化方面具有很好的扩展性(与机器人技术或聚变反应堆相比)。该领域还将多样化的多模式输入与富有表现力、可组合且与人类兼容的功能相结合。最近,在DeepMind的新论文《A Data-driven Approach for Learning to Control Computers》中,研究人员专注于训练智能体像人类一样对键盘和鼠标进行基本的计算机控制。论文地址:https://arxiv.org/pdf/2202.08137.pdfDeepMind对计算机控制的初步研究使用了基准MiniWob++任务套件(一组具有挑战性的计算机控制问题),其中包含一组执行点击、打字、指令的任务用于填写表格和其他此类基本的计算机交互任务(下图1b)。MiniWob++在以编程方式定义的奖励方面更进了一步。这些任务是迈向更开放的人机交互的第一步,在这种交互中,人类使用自然语言来指定任务并提供后续的性能判断。研究人员专注于训练代理人使用原则上适用于在数字设备上执行的任何任务的方法来解决这些任务,并具有预期的数据和计算缩放特性。因此,他们直接结合了强化学习(RL)和行为克隆(BC)这两种技术,其中行为克隆是通过人类和代理人的动作空间(即键盘和鼠标)之间的对齐来辅助的。具体来说,研究人员探索了使用键盘和鼠标进行计算机控制,并通过自然语言指定对象。而且,他们没有专注于手工设计的课程和专门的行动空间,而是开发了一种基于强化学习并结合利用实际人机交互提供的行为先验的可扩展方法。这是MiniWob(OpenAI在2016年提出的与网站交互的强化学习代理基准,MiniWob++是它的扩展版本)中提出的组合,但当时并没有发现可以生成高性能代理。因此,后续工作试图通过让代理访问特定的DOM操作来提高性能,并通过约束探索技术使用精心策划的指导来减少每一步可用的操作数量。通过重新审视模仿和强化学习的简单且可扩展的组合,研究人员发现实现高性能的主要缺失因素只是用于行为克隆的人类轨迹数据集的大小。使用比之前研究大400倍的数据集,使用更多的人类数据可靠地提高性能。我们在MiniWob++基准测试中的所有任务上都实现了最先进的和人类平均水平的性能,并找到了跨任务迁移的有力证据。这些结果证明了统一人机界面在训练机器使用计算机方面的有用性。总而言之,研究人员的结果展示了一种超越MiniWob++基准测试功能并像人类一样控制计算机的方案。对于DeepMind的这项研究,大多数网友惊呼“难以置信”。MiniWob++MiniWob++方法是Liu等人提出的基于Web浏览器的套件。可以感知小型网页(210x160像素)的原始像素并生成键盘和鼠标操作。MiniWob++任务范围从简单的按钮点击到复杂的表格填写,例如,在给出特定指令时预订航班(图1a)。之前关于MiniWob++的工作考虑了可以访问DOM特定操作的架构,允许代理直接与DOM元素交互,而无需使用鼠标或键盘导航到它。DeepMind研究人员选择仅使用基于鼠标和键盘的操作,并进一步假设这种界面将更好地迁移到计算机控制的任务,而无需与紧凑的DOM交互。最后,MiniWob++任务需要使用基于DOM元素的操作无法实现的单击或拖动操作(参见图1b中的示例)。与之前的MiniWob++研究一样,DeepMind的代理可以访问环境提供的文本字符串字典,将其输入到给定任务的输入字段中(有关示例,请参见附录图9)。下图为运行MiniWob++的电脑控制环境。人和智能体都使用键盘和鼠标控制计算机,人类为行为克隆提供模型行为,智能体被训练来模仿这种行为或表现出寻求奖励的行为。人类和代理试图解决MiniWob++任务套件,这些任务需要单击、键入、拖动、填写表格等。环境接口如果代理要像人类一样使用计算机,他们需要接口来传输和接收观察结果和动作。最初的MiniWob++任务套件提供了一个基于Selenium的接口。DeepMind决定实施一个替代环境堆栈,旨在让代理在网络浏览器中执行各种任务。该界面在安全性、功能和性能方面进行了优化(图1a)。最初的MiniWob++环境实现通过Selenium访问内部浏览器状态并发出控制命令。相反,DeepMind的代理直接与ChromeDevTools协议(CDP)交互以检索浏览器内部信息。代理架构DeepMind发现不需要专门的DOM处理架构。相反,受最近多模态架构的影响,DeepMind应用了最小模态特定处理,主要依靠多模态转换器来灵活处理相关信息,如图2所示。洞察力。代理接收视觉输入(165x220RGB像素)和语言输入(示例输入显示在附录图9中)。像素输入通过一系列具有3×3内核、步幅为2、2、2、2和输出通道(32、128、256、512)的四个ResNet块。这产生了一个14×11的特征向量,DeepMind将其展平为154个标记的列表。使用相同的模块处理三种类型的语言输入任务指令、DOM和任务字段:每个文本字符串被拆分为标记,每个标记映射到大小为64的嵌入。策略:代理策略由4个输出组成:操作类型、光标坐标、键盘键索引和任务字段索引。每个输出都由单个离散概率分布建模,但光标坐标除外,它由两个离散分布建模。动作类型从一组10个可能的动作中选择,包括一个无动作(表示没有动作)、7个鼠标动作(移动、单击、双击、按下、释放、滚轮向上、滚轮向下)和两个键盘动作(按键,发出文本)。DeepMind从77名人类参与者那里收集了超过240万次104MiniWob++任务的演示,总计约6300小时,并使用模仿学习和强化学习(RL)的简单混合来训练代理。实验结果MiniWob++上的人类水平性能由于大多数研究通常只解决MiniWob++任务的一个子集,因此本研究采用已公布的每个单独任务的最佳性能,然后将这些子任务的总体性能与本研究中提出的Agent进行比较。如下图3所示,代理显着超过SOTA基线性能。此外,代理在MiniWob++任务组件中实现了人类水平的平均性能。这种性能是通过结合BC和RL联合训练来实现的。研究人员发现,虽然智能体的平均性能与人类相当,但在某些任务中,人类的表现明显优于智能体,如下图4所示。任务转移研究人员发现,与针对每个任务单独训练的代理相比,在MiniWob++的所有104个任务上训练单个代理可以显着提高性能,如下图5所示。如下图7所示,人体轨迹数据集的大小是影响agent性能的关键因素。使用1/1000的数据集,大约相当于6小时的数据,会导致快速过度拟合,但与仅RL的性能相比没有显着改善。随着研究将该基线的数据量增加三个数量级,直至达到完整数据集大小,代理的性能不断提高。此外,研究人员还注意到,随着算法或架构的改变,数据集规模上的性能可能会更高。消融实验该代理??使用像素和DOM信息,并且可以配置为支持一系列不同的操作。本研究进行消融实验以了解各种架构选择的重要性。该研究从消融不同的代理输入开始(图8a)。当前的代理配置严重依赖DOM信息,如果删除此输入,性能将下降75%。相比之下,视觉信息的输入对代理的影响较小。如图8b所示,这项研究消除了代理使用环境提供的文本输入选项(任务字段)的能力。有趣的是,被移除的智能体仍然能够解决涉及表格填写的任务,但它通过突出显示文本并将其拖动到相关文本框来从人类轨迹中学习。值得注意的是,在原始Selenium版本的环境中为代理实现这样的拖动操作并非易事。图8b还显示了消融实验的结果,其中代理使用替代操作与特定DOM元素进行交互。这意味着代理无法解决涉及在画布中单击特定位置、拖动或突出显示文本的任务。
