从传统图引擎到GNN：计算图与机器学习的演进

时间：2023-03-16 14:44:27 科技观察

结构化还是高效计算？这一切都始于图的结构以及它们如何解决关系问题和支持分布式计算。当相同的结构应用于最先进的机器学习算法时，进化才真正发生。从简单的矩阵分解和线性回归算法到图神经网络（GNN）的实现，我们可以观察到技术的发展。本文将详细介绍图、它们的优势以及图在机器学习框架中的实现方式。作者还将讨论图形兼容性。以及它如何随时间演变。图是一种可以共同定义信息的关系数据结构。它是非线性节点和链接的汇编。LinkedIn和Facebook社交网络、Netflix电影结构、Google地图和路线优化等真实信息只能用图表表示。让我们以家谱为例：每个家庭成员都是家谱图(G)中的一个顶点(V)，其关系由边(E)定义。如果要提取某个家庭成员的信息，那么他/她的关系也必须知道，否则数据看起来不完整。每个节点和链接都有自己的含义和数据。同样，同一个图可以用很多不同的方式来表示，不同的链接值在祖先图中是自下而上绘制的。计算图计算图是带有方程式数据的图。它们是表示数学表达式的有向图的一种形式。一个非常常见的例子是后缀、中缀和前缀计算。图a中的每个节点都可以包含操作、变量或方程本身。这些图表出现在计算机执行的大多数计算中。图的优点图提供了一种独特的结构，可以代表许多现实世界的问题。与典型的表格或矩阵不同，顺序的优先级不高。每个元素相互依赖以形成关系。这种关系是所有基于它的假设和预测的核心。它的优点是：Node-linkstructure——图独特的node-link结构可以存储大量的信息。基于网络和关系的问题只能用这种格式表示。虽然存在其他结构如矩阵、树图来表示图，但主要组合优先。分布式计算-无法由单个核心或系统处理数十亿个节点/元素的巨大问题。分布式计算可以直接在图中实现，节省了大量的计算量，降低了时间复杂度。关系问题——通常使用数据集。如果您想根据最近的观看次数、最喜欢的演员、音乐等为自己预测电影怎么办？这是一个关系问题，只能用图形来解决。即使尝试使用无监督学习，也可以预测集群，但不能预测确切的标签或连接。我们将尝试简要了解一下Netflix电影预测中的一个这样的问题：将流派、演员、语言、发行日期想象成图表的主要节点。许多电影根据其标签链接到上述节点。根据电影，我存储首选属性节点。Netflix使用个性化视频排名(PVR)算法，根据存储的图形数据按流派和标题预测电影。在每个类型或标题中，它再次应用Top-NVideoRanker算法，该算法混合流行和个人选择来预测电影。机器学习中的图所有的神经网络都是计算图。不仅是这些，像线性回归这样的算法也可以用图表的形式表示。传统图和神经网络之间的主要区别在于实现。神经网络倾向于模仿计算图进行训练，但不能处理类似图的数据。他们需要结构化数据才能正常工作。让我们从神经网络中的前向传播的角度来理解它。假设这是一个有8个节点和16个链接的图。x1和x2输入神经元（节点）与隐藏层节点紧密相连。然后将这些节点类似地连接到输出层。x1、x2中的值会被传递到隐藏层。隐藏层执行A=WX+B。连接隐藏层和输出层的链接激活这些值。他们的等式是H=function(A)。在输出层中也执行类似的过程。总体而言，该图能够表示神经网络中的前向传播方程。演化了解了基础知识后，我们将继续探索图神经网络(GNN)为何会出现以及它们与人工神经网络(ANN)有何不同。如今，机器学习存在于许多自动化行业，并为许多组织和研究提供最先进的结果。分布式图的计算源于高效的并行计算、稳定的图结构，以及许多现实生活应用的实现，如社交网络、知识图谱等。将这两种技术结合起来将带来巨大的收益，并开辟新的研究领域以更好地发展和效率。图引擎框架已经做出了许多尝试来弥合图和机器学习算法之间的差距。图缺乏训练这些算法所必需的属性。结合图计算和机器学习时缺乏对循环、异构性和数据一致性的支持，数据抽象是人们关注的主要话题。TUX2和GraphLab等图引擎框架提出模型来解决某些问题。他们成功地将分布式图计算与矩阵分解、LatentDirichlet分配算法相结合，但未能实现神经网络。与能够使用GPU进行计算的深度学习框架不同，这些引擎仅利用分布式计算。GNN（ANN和GNN）介绍神经网络已经取代了很多静态算法，引领了当前的机器学习行业。市场需要具有直接深度学习相关性的基于图形的技术。由于传统引擎的失败和缺乏GPU支持，图神经网络被引入。图神经网络是从图数据中学习的深度学习的新兴领域。随着图卷积网络、LSTM网络等的引入，这个领域展现出了巨大的潜力。这些网络本身是图形结构的，并使用类似的数据进行训练。CORA和SNAP等图形数据集用于对其进行基准测试。如果人工神经网络是计算图，为什么我们需要GNN？答案有时可能令人困惑，但让我们从基础开始。人工神经网络以矩阵格式输入，或多或少有序的数据，而社交网络等问题优先考虑链接而不是顺序。从技术上讲，在图中，可以通过选择根节点和通过它的特定链接来导出顺序。作为计算图的人工神经网络仅仅意味着它们是链接在一起的前馈数学表达式。网络的依赖图及其使用的数据是不同的。在层数和函数上，两个网络都包含dense、softmax、ReLU等，但在各自的计算和处理上有所不同。普通的密集层意味着完全互连，但在GNN中可能并非如此。传统的神经网络可以解决两类问题：分类和回归。当涉及到社交网络或知识图谱时，他们就失败了。这些是需要直接图形输入的关系问题。在人工神经网络中，模型架构被定义，其输入及其各自的输出被馈送到模型中。基于图的网络的训练和预测在某种程度上是无监督的。因此，如果我想预测特定LinkedIn成员的姓名，我应该能够使用他的1度、2度关系、公司、机构隶属关系来完成，而无需实际知道他的实际标签。今天图神经网络的发展非常直观，我们需要掌握以上知识。

上一篇：大O符号与代码效率：花最少的力气得到最多的输出

下一篇：DDoS攻击的无情演变

从传统图引擎到GNN：计算图与机器学习的演进相关文章