当前位置: 首页 > 科技观察

图神经网络越深,性能越好吗?

时间:2023-03-15 15:07:23 科技观察

数十层甚至上百层神经网络的应用是深度学习的重要标志之一。但现实远非如此:比如今年被视为机器学习领域最热门的研究方向之一——图神经网络,其中大部分只使用几层网络。一般来说,我们认为图神经网络越深,效果越好。然而日前,帝国理工学院教授MichaelBronstein发出了灵魂拷问:图神经网络的深度真的能带来优势吗?“深度图神经网络”被滥用了吗?或者,我们是不是应该重新审视一下我们曾经认为的“图神经网络越深,效果越好”的想法。也许“深度”不适合基于图的深度学习?众所周知,深度图神经网络的训练过程是非常困难的。除了研究人员可以在深度神经架构中观察到的典型困难(例如大量参数导致反向传播和过度拟合的梯度消失)之外,还有一些特定于图形的困难,例如“过度平滑”:由于应用程序of有了多个图卷积层,节点特征往往会收敛到同一个向量,逐渐变得不可区分。这种现象首先在GCN模型中观察到,它的作用类似于低通滤波器。图的另一个独特现象是“信息瓶颈”,其中信息从指数数量的邻居“过度挤压”到固定大小的向量中。最近几天,人们致力于解决图神经网络中的深度问题,希望图神经网络能够有更好的性能,至少避免“名义上是深度学习,但只应用了两层”的尴尬图神经网络”。解决方案分为两派:第一类是正则化技术(regularizationtechniques),如DropEdge方法、节点特征间的成对距离归一化(PairNorm)或节点均值和方差归一化(NodeNorm);第二类是架构调整,包括各种类型的残差连接,例如知识跳跃或仿射残差连接。虽然这些方法可以训练具有数十层的深度图神经网络(这是一项壮举,但并非不可能),但它们并未产生令人满意的结果。更糟糕的是,使用深层架构通常会导致性能下降。下表显示了一个典型的实验评估结果,比较了不同深度的图神经网络在节点分类任务上的性能。下表显示了深度图神经网络架构在CoauthorsCS引文网络的节点分类任务上的一般结果。深度越深,baseline(GCNwithresidualconnections)的性能越差,性能从88.18%急剧下降到39.71%。使用NodeNorm技术的神经网络架构随着深度的增加而变得更好,但性能开始下降(尽管仅从89.53%下降到87.40%)。总体而言,64层深度架构获得的最佳结果(87.40%)比简单基线(88.18%)差。此外,我们注意到NodeNorm正则化可以提高浅2层架构的性能(从88.18%到89.53%)。上表来自论文《 Effective training strategies for deep graph neural networks》从上表可以清楚地看出,我们很难区分神经网络的“优势”是从深层网络架构中获得的,还是从训练的“技巧”中获得的这样的神经网络。上例中的NodeNorm还改进了只有两层的浅层架构,从而实现了最佳性能。因此,我们无法确定,在其他条件相同的情况下,层数越深的图神经网络是否会表现得更好。这些结果与基于网格结构数据的传统深度学习形成鲜明对比。在传统的深度学习中,“超深度”架构可以带来性能上的突破,在今天得到广泛应用。接下来,笔者尝试从以下几个方面探讨文章开头提出的问题:图神经网络越深,优势越大?不过,笔者也表示,目前并没有明确的答案。希望以下这些讨论能够启发大家的思考。1.图结构由于网格是一种特殊的图,目前有一些案例可以说明深度有利于这类图。除了网格图,研究发现深层结构可以促进一些象征结构的几何图形(如分子、点云、网格等)。为什么这些图与通常用于评估图神经网络的引文网络(例如Cora、PubMed和CoauthorsCS)如此不同?其中一个区别是引文网络就像直径很小的“小世界”。在”中,任何节点都可以在短短几步内跳转到其他节点。因此,感受野只需要几个卷积层就可以覆盖整个图,增加层数也无济于事。在计算机视觉中,另一方面,感受野呈指数增长,需要更多的层来构建捕捉图像中物体背景的感受野。在上图顶部的“小世界”图中,只需要几步从一个节点跳到任何其他节点,因此图卷积滤波器的邻域数量和相应的感受野呈指数级快速增长。我们可以看到,从红色节点到任何一个节点只需要两跳(不同颜色表示从红色节点到每个节点的层数)。另一方面,在上图底部的网格图中,我们看到感受野呈多项式增长,因此需要更多的层才能形成相同大小的感受野。如上图所示,邻域呈指数级增长,出现“信息瓶颈”现象:来自多个领域的大量信息不得不被挤进单个节点特征向量,导致信息无法传播,模型性能下降.2.Long-rangeproblemsvs.Short-rangeproblems作者认为在讨论深度和图深度学习的关系时,会涉及到长程和短程信息的处理。例如,社交网络的预测仅依赖局部域节点的短程信息,无法通过加入远程信息来改善。因此,浅层GNN通常用于预测。另一方面,分子图通常需要使用远程信息,因为分子的化学性质可能由它们的排斥原子组合决定。DeepGNN可能适用于处理远距离信息,但如果图结构导致感受野呈指数级增长,信息瓶颈现象将阻碍远距离信息的有效传播。这也是深度模型性能无法提升的原因。3.理论局限深层结构不仅可以使感受野更宽,还可以使计算机视觉在简单特征的基础上合成复杂的特征。通过可视化卷积神经网络从人脸图像中学习到的特征,研究人员发现简单的几何基元逐渐变得越来越复杂,最终形成了完整的面部结构。这一现象表明,传说中的“祖母神经元”(grandmotherneuron)很可能存在。这些将简单特征合成复杂特征的方法对于图来说似乎是不可能的。比如神经网络再深,也不可能根据边角/线来合成三角形。另一方面,研究表明,在使用通过网络的消息计算图的属性之前,必须设置最小深度。目前,人们无法确定哪些图属性可以用浅层GNN计算,哪些必须用深层模型计算,哪些根本不能用任何类型的GNN计算。下面是一个基于人脸图像的卷积神经网络学习到的人脸特征的例子。可以注意到,随着层数的加深,图像特征逐渐变得更加复杂,人脸结构也更加完整。该图来自MatthewStewart的博文:https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d4,图深度学习的深度和丰富度与计算机视觉相反:在计算机视觉中,底层网格是固定的,而在图深度学习中,图结构是一个非常重要的考虑因素。对于标准图神经网络无法定位的一些复杂的高级信息(例如motif和子结构计数),我们可能会设计更精细的信息传递机制来解决。例如,研究人员可以选择具有多跳滤波器的浅层网络,而不是使用具有1跳卷积的简单深度架构。在他最近发表的Scalableinception-likegraphneutralnetworks(SIGN)论文中,MichaelBronstein详细解释了如何使用多个预计算过滤器(multiplepre-computedfilters)的单层线性图卷积结构,并展示了性能该网络的性能可与复杂模型的数十倍相媲美。有趣的是,计算机视觉采用与图深度学习完全相反的方法:早期的浅层卷积神经网络(CNN)结构(例如AlexNet)使用大过滤器(高达11×11),后来采用小过滤器(通常为3×3)深度结构代替。5.评价目前常用的图神经网络评价方法受到了OleksandrShchur和StephanGünnemann小组成员的严重质疑。他们关注共同基准的缺点,并表明简单模型和复杂模型在相同条件下的表现相似。我们观察到的一些与深层结构相关的现象,包括随着深度的增加性能下降,可能仅仅是由于对小数据集的过度拟合。新的OpenGraphBenchmark可以为大规模图像提供严格的训练和测试数据拆分方法,一定程度上解决了上述部分问题。作者认为,研究人员需要仔细设计实验程序,以更好地了解深度是否以及何时对图形深度学习有用。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。