当前位置: 首页 > 科技观察

本文对“联邦图机器学习”进行了总结,包括概念、技术和应用

时间:2023-03-19 14:42:14 科技观察

近年来,图在医疗、交通、生物信息学、推荐系统等诸多领域被广泛用于表示和处理复杂数据。.图机器学习技术是捕获隐藏在复杂数据中的丰富信息的强大工具,在节点分类和链路预测等任务中表现出了强大的性能。尽管图机器学习技术取得了重大进展,但大多数技术都需要将图数据集中存储在一台机器上。然而,随着对数据安全和用户隐私的重视,集中式数据存储变得不安全和不可行。图数据通常分布在多个数据源(数据孤岛)中,由于隐私和安全原因,从不同地方收集所需的图数据变得不可行。例如,某第三方公司希望为一些金融机构训练图机器学习模型,以帮助他们检测潜在的金融犯罪和欺诈客户。每个金融机构都有私人客户数据,例如人口统计数据和交易记录。每个金融机构的客户组成一个客户图,其中的边代表交易记录。由于严格的隐私政策和商业竞争,各机构的私人客户数据不能直接与第三方公司或其他机构共享。同时,机构之间也可能存在关联,可以看作是机构之间的结构信息。因此,主要的挑战是在不直接访问每个机构的私人客户数据的情况下,基于私人客户图和机构间结构信息训练用于金融犯罪检测的图机器学习模型。联邦学习(FL)是一种分布式机器学习解决方案,通过协同训练解决数据孤岛问题。它使参与者(即客户)能够在不共享其私人数据的情况下共同训练机器学习模型。因此,将FL与图机器学习相结合成为解决上述问题的有前途的方法。在这篇论文中,弗吉尼亚大学的研究人员提出了联邦图机器学习(FGML,FederatedGraphMachineLearning)。一般来说,FGML可以根据结构信息的层次分为两种设置:第一种是FLwithstructureddata,其中clients基于他们的图数据协作训练图机器学习模型,同时将图数据保存在本地。第二种是结构化FL,客户端之间存在结构化信息,形成客户端图。可以使用客户端图设计更有效的联合优化方法。论文地址:https://arxiv.org/pdf/2207.11812.pdf尽管FGML提供了一个有前途的蓝图,但仍然存在一些挑战:1.跨客户端信息缺失。在具有结构化数据的FL中,一个常见的场景是每个客户端机器都拥有全局图的一个子图,并且某些节点可能有属于其他客户端的邻居。出于隐私考虑,一个节点只能聚合客户端内其邻居的特征,而不能访问位于其他客户端上的特征,这导致节点代表性不足。2、图结构隐私泄露。在传统的FL中,客户端不允许公开其数据样本的特征和标签。在具有结构化数据的FL中,还应考虑结构信息的隐私。结构信息可以通过共享邻接矩阵直接公开,也可以通过转移节点嵌入间接公开。3.跨客户端的数据异构性。与数据异质性来自非IID数据样本的传统??FL不同,FGML中的图形数据包含丰富的结构信息。同时,不同客户的图结构也会影响图机器学习模型的性能。4.参数使用的策略。在结构化FL中,客户端图使客户端能够从其邻居获取信息。在结构化FL中,需要设计有效的策略以充分利用由中央服务器协调或完全分散的邻居信息。为了应对上述挑战,研究人员开发了大量算法。目前各种算法都专注于标准FL中的挑战和方法,只有少数算法尝试解决FGML中的特定问题和技术。有对FGML进行分类的评论论文,但没有总结FGML中的主要技术。其他评论文章仅涵盖有限数量的FL相关论文,并非常简要地介绍当前的技术水平。在今天介绍的论文中,作者首先介绍了FGML中两种问题设计的概念。然后,回顾了每种社支下的最新技术进展,并介绍了FGML的实际应用。它还总结了可用于FGML应用程序的可访问图形数据集和平台。最后,作者给出了几个有前途的研究方向。本文的主要贡献包括:FGML技术的分类:本文根据不同的问题提出了FGML的分类,并总结了每种设置中的关键挑战。ComprehensiveTechnicalReview:本文全面概述了FGML中的现有技术。与其他现有综述论文相比,作者不仅考察了更广泛的相关工作,还提供了更详细的技术分析,而不是简单地列出每种方法的步骤。实际应用:文章首次总结了FGML的实际应用。作者根据它们的应用领域对它们进行了分类,并介绍了每个领域的相关工作。DatasetsandPlatforms:文章介绍了FGML中现有的数据集和平台,对想在FGML中开发算法和部署应用的工程师和研究人员有很大的帮助。未来方向:文章不仅指出了现有方法的局限性,还给出了FGML未来的发展方向。FGML技术概述这里简单介绍一下文章的主要结构。第2节简要介绍了图机器学习中的定义以及FGML中两种设置的概念和挑战。第3节和第4节回顾了这两种设置中的流行技术。第5节进一步探讨了FGML的实际应用。第6节介绍了相关FGML论文中使用的开放图数据集和FGML的两个平台。第7节提供了未来可能的方向。第8节总结了全文。有关更多详细信息,请参阅原始论文。