当前位置: 首页 > 科技观察

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

时间:2023-03-18 22:05:59 科技观察

上海数字大脑研究院发布国内首个大型多模态决策模型DB1,可实现对超复杂问题的快速决策最先进的决策大型模型(简称DB1)填补了国内该领域的空白,进一步验证了预训练模型在文本、图文、强化学习决策、运营优化决策等方面的应用潜力。目前,我们已经在Github上开源了DB1的代码,项目链接:https://github.com/Shanghai-Digital-Brain-Laboratory/BDM-DB1。此前,MADT(https://arxiv.org/abs/2112.02845)/MAT(https://arxiv.org/abs/2205.14953)等多智能体模型由数学研究所提出,部分离线大模型通过sequences建模,使用Transformer模型在一些单/多agent任务上取得了显着的效果,并继续朝这个方向研究探索。过去几年,随着预训练大模型的兴起,学术界和工业界在预训练模型的参数量和多模态任务等方面不断取得新的进展。建模被认为是通向通用人工智能的重要路径之一。专注于决策智能研究的数学研究所创新性地尝试将预训练模型的成功复制到决策任务中,并取得了突破。Multi-modaldecision-makinglargemodelDB1此前DeepMind推出了Gato,将单agent决策任务、多轮对话、图文生成任务统一为一个基于Transformer的自回归问题,在604上取得了不错的效果不同的任务。性能表明可以通过序列预测解决一些简单的强化学习决策问题,验证了数研所大决策模型研究方向的正确性。此次数研所推出的DB1主要是复现和验证Gato,并尝试从网络结构和参数量、任务类型和任务量两个方面进行改进:参数量和网络结构:DB1参数量达到12.1亿.参数量上尽量接近Gato。总体而言,数学研究所采用了与Gato类似的结构(相同的DecoderBlocks数量、隐藏层大小等),但在FeedForwardNetwork中,由于GeGLU激活函数会额外引入1/3的参数量,因此数学研究所为了接近Gato的参数量,用4*n_embed维的隐层状态经过GeGLU激活函数变成2*n_embed维的特征。在其他方面,我们与Gato实现共享输入和输出编码端的嵌入参数。与Gato不同的是,我们采用PostNorm方案进行层归一化,我们对Attention使用混合精度计算来提高数值稳定性。任务类型和任务数量:DB1中的实验任务数量达到870个,比Gato高出44.04%,在>=50%expertperformance上比Gato高出2.23%。在具体的任务类型上,DB1大部分继承了Gato的决策、图文任务,各种任务的数量基本一致。不过在决策任务方面,DB1也引入了200多个真实场景任务,即100和200节点规模的旅行商问题(TSP,此类任务随机选取100-200个地理位置作为所有节点)中国主要城市代表)解决方案。可以看出,DB1的整体性能已经达到了Gato的水平,开始向更现实的业务需求域体演化,很好的解决了NP-hardTSP问题,而Gato之前并没有做到这一点。探索。DB1(右)和GATO(左)指标对比DB1在强化学习模拟环境下的多任务性能分布与传统决策算法相比,DB1在跨任务决策能力和快速迁移能力上有很好的表现。在跨任务决策能力和参数量方面,实现了从单个复杂任务的千万级到数十亿级参数到多个复杂任务的数十亿级参数的飞跃,并持续增长,具备能力解决复杂的业务环境。足够的能力解决实际问题。在迁移能力方面,DB1完成了从智能预测到智能决策、从单智能体到多智能体的跨越,弥补了传统方法在跨任务迁移上的不足,使得在内部构建大型模型成为可能企业。不可否认,DB1在开发过程中也遇到了很多困难。数据科学研究所做了很多尝试,为业界的大规模模型训练和多任务训练数据存储提供了一些标准的解决方案。由于模型参数达到10亿参数,任务规模巨大,需要在超过100T(300B+Tokens)的专家数据上进行训练,普通的深度强化学习训练框架已经不能满足这种快速训练案件。为此,一方面,对于分布式训练,数研所充分考虑了强化学习、运筹学优化、大规模模型训练的计算结构。互通机制尽可能提高了模型的训练效率,将870个任务的训练时间缩短至一周。另一方面,对于分布式随机采样,训练过程所需的数据索引、存储、加载、预处理等也成为相应的瓶颈。数据科学技术研究院在加载数据集时采用了懒加载模式,解决了内存受限的问题,最大限度地利用了可用内存。另外,对加载的数据进行预处理后,会将处理后的数据缓存到硬盘中,这样以后可以直接加载预处理后的数据,减少重复预处理带来的时间和资源成本。目前,OpenAI、谷歌、Meta、华为、百度、达摩院等国际国内领先企业和研究机构都对多模态大模型进行了研究,并进行了一定的商业化尝试,包括在自己的产品中。申请或提供模型API及相关行业解决方案。相比之下,数学研究所更关注决策问题,支持在游戏AI决策任务、运筹学优化TSP求解任务、机器人决策控制任务、黑盒优化求解任务和多任务上的应用尝试。-回合对话任务。任务绩效运筹学优化:TSP问题解决TSP问题强化学习任务视频演示以中国部分城市为节点DB1模型在完成870个不同决策任务的离线学习后,评估结果显示76.67%的任务达到或超过50%的专业水平。下面是部分任务的效果演示。视频游戏场景:DB1可以接收2D/3D图像输入,可以很好的完成Atari、Procgen等2D像素游戏。同时,对于DMLab这种类似于现实世界的3D图像输入任务,DB1也表现出了优异的表现。很好的表现。AtariBreakoutDMLabExploreObjectLocationsProcgenDogBall连续控制场景:在机器人领域的连续控制任务中,DB1也可以对连续动作的策略输出进行建模,能够很好的完成仿真任务。MetaworldPlateSlideModularRLCheetahText-ImageTask文本生成:给出文本提示并生成长文本描述输入提示:数字大脑实验室是一家位于上海的公司生成结果:数字大脑实验室是一家位于上海的公司,我们正在寻找高技能和有经验的人加入我们在中国上海的团队。我们是一家数字大脑实验室,我们正在寻找技术精湛、经验丰富的人才加入我们在中国上海的团队。这是一个为一家正在经历快速增长阶段并在市场上产生影响的知名和成长型公司工作的机会。这是一个全职、永久的职位。我们正在寻找一位技术精湛、积极进取且经验丰富的软件工程师,能够在竞争激烈的环境中领导5-10人的团队图像描述生成:给定一张图片生成相应的文字描述目前决策的局限性和未来方向largemodel虽然目前的多模态决策预训练模型DB1已经取得了一定的效果,但是仍然存在一定的局限性,比如:跨域任务采样权重敏感,跨域知识迁移困难,长序列建模难、专家数据强依赖等。虽然挑战很多,但现阶段看来,多模态决策模型是要实现决策代理从游戏到更广泛的场景,从虚拟到现实,在真实开放的动态环境中进行自主感知和决策,最终达到更通用的目的之一人工智能的主要探索方向。未来,数研所将继续迭代数字大脑的大决策模型,通过更大量的参数和更有效的序列表示来接入和支持更多的任务,结合离线/在线训练和微调实现跨领域、跨模态、跨任务知识的泛化和迁移,最终在现实应用场景中提供更通用、更高效、成本更低的决策智能决策解决方案。