当前位置: 首页 > 科技赋能

联合国际顶尖大学昆仑万维开源数字代理研发工具包AgentStudio

时间:2024-05-19 16:13:14 科技赋能

近日,昆仑万维全球研究院、新加坡南洋理工大学、苏黎世联邦理工大学研究团队联合开源数字化全流程研发工具包AgentStudio代理。

,旨在为研究和开发者提供覆盖智能体完整开发流程的综合平台,让开发者轻松、高效、灵活地构建专属数字智能体。

AgentStudio提供的工具涵盖了数字智能体开发的整个过程,包括智能体观察和动作空间、跨平台在线环境支持、交互式数据收集和评估、可扩展的任务套件以及相应的图形界面。

此外,研究团队还评估了多个多模态大模型在数字世界中完成任务的能力。

AgentStudio 是一个完全免费的开源项目。

通过此次开源工作,项目团队希望与人工智能界共同加速智能体技术的发展,促进前沿知识的共享与合作。

目前,AgentStudio相关的所有论文、代码、数据、文档均已公开。

论文标题:AgentStudio: A Toolkit for Building General Virtual Agents 论文链接:论文截图)Agent:大型模型行业的前沿。

近来,随着大模型技术在自然语言理解、工程能力、数据能力、存储能力等领域的突破,大量由大模型技术驱动的智能体(Agent)不断涌现,并且在方面都有着优异的表现。

具有通用性、实用性和可实施性。

与传统软件程序不同,基于大模型能力构建的AI智能体具有感知环境、做出决策、执行行动等能力,并能通过独立思考和调用工具逐步完成给定目标,成为当前智能体领域的领先者。

全球AI大模型领域。

专注于前沿。

此前,昆仑万维已推出“天工SkyAgents”AI Agent开发平台。

用户无需编码,通过自然语言和简单操作,几分钟内即可部署自己的AI Agent。

如今,借助大型模型,数字代理(虚拟代理)可以通过控制手机和电脑上的软件来帮助人们完成许多日常任务,提高工作效率。

然而,当前数字代理的进展很大程度上受到基线环境和数据源的限制。

其中大多数仅在简单且受限的场景中进行评估和演示,从而掩盖了所面临的挑战,远未达到真正实施所需的可用性。

距离可靠性还有很长的路要走。

然而,缺乏全面、真实的数据采集环境阻碍了这些智能体能力的进一步提升。

AgentStudio工具包的开发是基于当前人工智能领域对高效、可扩展的Agent开发工具的迫切需求。

该工具包不仅包括智能体观察和动作空间的定义工具,还提供跨平台在线环境支持,允许开发人员在不同平台和设备上开发和测试智能体。

此外,AgentStudio支持交互式数据收集和评估,以及可扩展的任务套件,大大增强了其实用性和灵活性。

AgentStudio:灵活、通用、可扩展(AgentStudio架构和环境介绍。

AgentStudio是一个支持与现实世界计算机在线交互的平台。

与现有环境相比,它具有最通用的代理观察和行动空间,同时提供支持目前,全球有多种数字代理开发工具包,支持不同的开发环境和应用领域。

与现有工具相比,AgentStudio的主要优势有: 目前,全球范围内有多种数字代理开发工具包,支持不同的开发环境和应用领域。

与现有工具相比,AgentStudio的主要优势有: l 可重复、多模态、跨平台的在线环境:AgentStudio通过Docker、VNC、FastAPI、虚拟机支持包括Windows、MacOS、Linux在内的便捷连接。

各种操作系统和设备等,比现有环境更注重真实的落地场景。

· 统一标准化的输入输出:为了支持Agent与尽可能多的种类软件交互,AgentStudio采用了最通用的输入输出方式,不仅支持观察计算机屏幕图像作为输入和输出像人一样操作键盘,以鼠标和命令行作为输出,还支持函数调用和API来实现通用计算机控制。

l 全面、可扩展、可组合的任务集:AgentStudio包含对AI代理完成十多个应用程序指令能力的综合评估,涵盖文档操作、电子邮件处理、日历使用等多种应用软件。

、音乐播放器、视频编辑器、代码编辑器等,涵盖复杂的现实应用场景,还包括从单一低级操作到跨任务组合任务的不同难度的多级任务。

根据此任务集,AgentStudio 会公开相应的排行榜。

l 完整的智能体数据采集和评估代码:AgentStudio的功能不仅包括智能体能力的评估,还包含完整的开源数据集采集代码,可用于数据集的手动标注,也可用于以便代理收集自己的经验。

l 注重工具的创建和使用:开放域中工具的创建和使用是AI代理的核心能力之一。

以计算机为例,AgentStudio为座席提供了三种最常用的工具:键盘、鼠标和命令行。

它还支持代理在交互过程中进一步创建和复用新的工具,例如创建和修改日历工具集,以实现智能代理的不断自我完善。

l 交互式可视化界面:AgentStudio提供了友好的轻量级GUI界面,帮助用户快速轻松地创建任务并一键自动收集数据。

下面的流程图将直观地展示使用AgentStudio创建任务和收集数据的过程。

通过AgentStudio提供的人性化界面,用户可以录制跨平台的手动演示,包括输入任务指令、通过交互界面获取坐标、编辑运行代码、记录智能体轨迹等一系列功能,大大简化了操作过程。

大规模数据采集的难度为下一代智能代理数据规模化提供了基础。

· 对使用AgentStudio创建任务、收集数据、与环境交互的过程进行多维度综合评价。

除了构建工具包之外,研究团队还评估了多个多模态大型模型在数字世界中完成任务的能力。

为了全面评估Agent的能力,AgentStudio的结果从多个维度出发: l 图形界面接地数据集:任务只包含单步动作,指令是不需要规划的低级操作。

它主要关注代理与图形界面交互的能力。

; l 日常任务和组合任务集:任务完成需要调用复杂的API,或者需要多步骤操作,并且经常需要跨软件交互。

该任务集用于衡量智能体完成日常任务和执行复杂行动计划的能力。

AgentStudio的评估结果还进一步分析了现有多模态模型在图形界面接地数据集上表现不佳的可能原因以及相应的改进方法,并衡量了模型的自评估能力,这些都有助于模型的自评估能力。

代理的改进和改进。

真正的落实至关重要。

基于评估结果,研究团队还在论文中讨论了几个有前景的研究方向,包括更通用的图形界面接地模型和算法、从视频演示中学习等。

Agent全流程解决方案 从环境到Agent,从数据到评估,AgentStudio提供了覆盖Agent构建全流程的一整套解决方案,将极大加速Agent的开发。

AgentStudio建立在研究团队对代理、工具调用、代码解释器的深入理解和积累之上。

目前,研究人员已经开源了所有成果,包括实现环境、代理数据集、算法实现等,希望帮助人工智能界构建更多能够完成复杂任务的AI代理。

欢迎感兴趣的研究人员和开发人员下载使用,并关注AgentStudio团队的其他相关项目。

猜你喜欢