当前位置: 首页 > 科技赋能

360 开源全球首个图神经网络控制器赋能算法模型,“分分钟”上云

时间:2024-05-19 16:26:30 科技赋能

近期,360(股票代码:60.SH,简称)将自主研发全球首个云原生基于图神经网络训练控制器“DGL Operator”已经开源。

DGL Operator是智能工程部AI平台团队基于云原生技术栈和DGL图神经网络算法框架开发和维护的多机训练控制器。

开发者可以使用DGL Operator自动创建、配置和管理复杂的DGL分布式训练任务,简化开发分布式训练的准备工作,并实现大规模图训练场景。

图神经网络(以下简称“GNN”)模型准备和构建时间,原来以“天”计算的时间,通过DGL Operator可以搬到“分钟”到云端,并且可以得到想要的算法模型可以很快得到。

该训练控制器的开源从工业应用层面为GNN分布式训练提供了另一种可能性。

基于云原生技术栈,打通了从大规模图训练的实验尝试到产业应用的关键环节,弥补了模型训练关键方面的空白。

推出GNN训练控制器,实现“一键”云端训练 近两年,随着GNN在社交网络、推荐系统、金融风控、生命科学、流量预测等领域的广泛应用,GNN项目越来越多而随着应用的出现,如何快速构建GNN模型的问题越来越受到人们的关注。

常见的深度学习框架在卷积神经网络(CNN)和循环神经网络(RNN)领域提供了大量开箱即用的接口,但在构建GNN模型方面受到限制,缺乏有效的开发框架。

在此背景下,纽约大学和亚马逊联合开发了DGL框架,使得开箱即用的构建GNN成为可能。

然而在工业场景中,工程师在基于DGL开发构建GNN模型时,往往需要处理千万级甚至数十亿个节点或边的大型图,单机训练已经不能满足开发者的需求。

2016年,DGL原生支持分布式训练,从算法框架层面赋予了大规模图训练的能力。

但在实际应用中,仍存在诸多限制和挑战。

例如,用户在触发图切割和分布式训练命令时无法自动化工作流程;训练完成后,部分资源需要手动释放,无法实现资源的自动释放。

可以说,DGL作为GNN领域事实上的标准,在算法端提供了分布式训练能力,但并没有优化相应的底层基础设施,不足以支持生产级自动化场景。

为了解决DGL原生分布式训练问题,DGL Operator提供简单、便捷、开箱即用的模型训练体验,致力于降低DGL用户在云原生上训练GNN模型的难度技术栈而不关注分布式相关问题。

对于复杂配置,提交代码即可实现“一键式”云训练。

如今,机器学习领域的领先公司正在使用越来越大的数据集和参数来不断刷新最大数据训练模型的记录。

智能工程系AI平台团队一直关注机器学习、深度学习底层基础设施、训练框架的发展,深刻认识到超大规模深度学习模型的更多问题在于分布式训练。

由于关注底层基础设施,因此进行了DGL Operator的研发。

在研发过程中,我们与DGL创始团队(AWS)以及云原生机器学习最大的开源社区(Kubeflow)进行了沟通与合作,并拓展了在这些分支的能力。

影响。

我们倡导共享共治,推动开源生态建设。

事实上,创始人兼董事长周鸿祎就是开源协作精神的忠实支持者。

作为中国最早的互联网企业家,周鸿祎始终认为,如果没有开源软件,中国的互联网可能不会有飞快的速度。

发展;没有开源的Android系统,中国手机产业不可能风靡全球;没有开源代码,中国的人工智能产业不可能如此蓬勃发展。

根据开源软件公司红帽的数据,全球超过90%的IT公司都在使用开源软件。

根据 Synopsys 的数据,全球 98% 的代码库都包含开源代码。

在中国,无论是学术界、工业界还是科研界,对于开源的态度都发生了阶段性的变化。

在其发展之初,很多人认为开源与商业没有直接联系。

然而,开源社区的协作模式改变并颠覆了传统的工作方式。

开源也成为我国在基础软件层面必须考虑的一条路径。

对此,周鸿祎表示,“我认为开源不仅仅是一种软件开发方式,更是一种经济发展形式、一种合作创新机制。

社会主义的优势之一就是集中力量办大事,开放源泉是新时代,重在成就大事。

”然而,在很多公司看来,开源和商业化是一对矛盾。

“这几年,我们享受到了一些开源红利。

然而有些公司却把国外开源的东西拿过来变成了自己的。

经过优化后,它们已经成为闭源的。

这样的发展下去,很难产生持续的创新。

”在周鸿祎的“共享、共治、奉献第一”的思想指导下,是业内践行开源精神最彻底的公司之一多年来不断开源具有重大创新价值的技术源代码,对前沿技术的发展起到了重要推动作用。

事实上,DGL Operator只是该公司在开源方向一系列举措中的最新举措。

未来,我们将继续秉持系统思维、底层视角和开源精神,开发并开源更多具有行业价值的关键技术,推动中国开源生态建设和前沿技术发展。