当前位置: 首页 > 科技观察

清华大学发布首个开源、易用、可扩展的自动图机器学习工具包

时间:2023-03-19 16:34:55 科技观察

如何应用自动机器学习(AutoML)加速图机器学习任务的处理?清华大学发布了全球首个开源自动图学习工具包:AutoGL(AutoGraphLearning),支持对图数据进行自动机器学习。人工智能的蓬勃发展离不开数据、算力、算法三大要素。在海量数据中,有一种数据结构既常见又复杂,它就是图。图是用来描述事物之间关系的结构,其基本构成元素是节点和连接节点的边。许多不同领域的研究问题都可以自然地建模为图机器学习,例如蛋白质建模、物理系统模拟、组合优化等基础研究;社交媒体分析、推荐系统、虚假新闻检测等互联网应用;和财务风险分析。控制、知识表示、交通流量预测、新药发现等。示例社交网络图。图具有丰富的结构和固有的导向性,使其成为机器学习模型的理想选择。同时,将应用程序大规模扩展是极其复杂和困难的。此外,不同的图数据在结构、内容和任务上差异很大,所需的图机器学习模型也可能差异很大,这导致不同任务的模型自动化面临很大挑战。如何设计最优的图自动机器学习模型是一个尚未解决的问题。图+AutoML=?AutomatedMachineLearning(AutoML)旨在将机器学习的过程自动化,降低机器学习的使用门槛,提高机器学习的效果。然而,现有的自动机器学习工具无法考虑图数据的特殊性,因此无法应用于图机器学习模型。为了解决这个问题,清华大学朱文武教授领导的网络与媒体实验室发布了全球第一个开源的自动图学习工具包:AutoGL(AutoGraphLearning)。该工具支持对图数据进行全自动机器学习,支持图机器学习中最常见的两个任务:节点分类和图分类。AutoGL流程图。AutoGL工具包首先使用AutoGLDataset来维护图形机器学习任务所需的数据集。AutoGLDataset导入了大规模图表示学习工具包CogDL和图神经网络库PyTorchGeometric(PyG)中的数据集模块,并增加了对OGB数据集的支持,同时也增加了一些集成自动求解器框架的支持。不同的图机器学习任务可以通过不同的AutoGLSolver解决。AutoGLSolver使用四个主要模块来自动解决给定的任务,即特征工程(FeatureEngineering)、图学习模型(GraphLearningModel)、超参数优化(HPO)和模型自动集成(AutoEnsemble)。每个部分的设计都考虑到了图形数据的特殊性。Module1:FeatureEngineeringAutoGL特征工程模块包括图机器学习过程中常用的特征工程方法,包括节点/边/子图特征提取、变换和筛选,如节点度、节点ID、特征向量等。这些方法显着丰富了目标图数据的信息,提高了图学习的效果。同时,用户还可以方便地扩展特征工程模块,满足个性化需求。模块二:图学习模型AutoGL目前支持GCN、GAT、GIN等常见的图学习模型,可以完成点分类、图分类等多种常见任务。它易于使用且易于使用。同时,AutoGL主页还提供了详细的文档说明,支持用户自定义模型,具有良好的扩展性。模块三:超参数优化AutoGL目前集成了多种通用的超参数优化方法,如网格搜索、随机搜索、贝叶斯优化、模拟退火、TPE等算法,还包括针对图学习优化的自动机器学习算法AutoNE。该模块省去了图学习中复杂的手动调参过程,大大提高了工程效率。同时,该模块易于使用。用户只需要给出每个超参数的类型和搜索空间,指定超参数优化方法,即可快速开始运行多个自动图学习模型。AutoGL将在给定的资源预算(时间、搜索次数等)内给出超参数的最佳组合。该模块还支持扩展,用户可以自定义新的超参数优化算法。模块四:模型自动集成自动集成模块目前支持两种常用的集成学习方式:voting和stacking。该模块将多个基础模型结合起来,得到一个综合模型,可以相互学习,进一步提高图学习的效果。AutoGL工具包目前支持多种算法,如下表所示:AutoGL工具包四个不同模块支持的算法。AutoGL工具包极大地方便了开发者设计和调优相应的图学习算法。用户只需按照AutoGL的数据集标准提供目标数据集,AutoGL会自动寻找最优模型和对应的超参数,从而简化图学习算法的开发和应用过程,大大提高相关的科学研究和应用图学习。效率。此外,AutoGL工具包为用户提供了一个公平测试和比较算法的平台。AutoGL在设计上遵循模块化的思想,每个模块都可以扩展。用户只需实现相应模块类的接口,即可轻松测试自己的算法,为快速获取基线效果,公平比较不同模型的性能提供了便利。未来展望AutoGL研发团队表示,他们将进一步深入研发,以方便其他研究人员、行业用户和初学者快速上手AutoGL,解决学术界和工业界遇到的图学习相关问题。据AutoGL网站介绍,该工具包将在不久的将来支持以下功能:神经架构搜索;支持大规模图形数据集;更多图任务(如链路预测、异构图任务、时空任务);图提升和装袋;多图模型库提供后端支持(如DGL)。AutoGL研发团队期待得到各种反馈,以便更好地完善AutoGL的各项功能。“我们的最终目标是推动自动图机器学习在学术界和工业界的深入探索和应用。”AutoGL开发人员在谈到未来计划时表示。相关链接AutoGL网站地址:http://mn.cs.tsinghua.edu.cn/autogl/AutoGL代码链接:https://github.com/THUMNLab/AutoGLAutoGL文档:https://autogl.readthedocs.io/en/latest/index.html图深度学习模型综述:https://arxiv.org/abs/1812.04202