有效整合语言模型、图神经网络、文本图训练框架GLEM，实现新SOTA

时间：2023-03-18 23:21:37 科技观察

主要单位：蒙特利尔算法学习人工智能实验室（Mila）、微软亚洲研究院等。论文地址：https://arxiv。org/abs/2210.14709代码地址：https://github.com/andyjzhao/glem简介图1：（a）文本图（b）图神经网络（c）语言模型图是一种通用的数据结构，它对节点的结构进行建模他们之间的关系。在现实生活中，很多节点都包含富文本特征，这种图称为文本属性图（text-attributedgraph[2]）。例如，论文引文网络包含论文的正文和论文之间的引用关系；社交网络包含用户的文字描述和用户的直接交互关系。文本图上的表示学习模型可以应用于节点分类、链路预测等任务，具有广泛的应用价值。文本图包含两方面的信息：节点的文本信息和节点间的图结构信息。传统文本图的建模可以分为两个角度：文本建模和图建模。其中，文本的建模方法（如图1.b所示）通常使用基于Transformer的语言模型（LM）来获取单个节点的文本表示并预测目标任务；图建模的建模方法（图1.c）通常采用图神经网络（GNN）通过消息传播机制对节点特征之间的交互进行建模，预测目标任务。然而，这两种模型只能分别对文本图中的文本和图结构进行建模：传统语言模型不能直接考虑结构信息，图神经网络不能直接对原始文本信息进行建模。为了同时对文本和图结构进行建模，研究人员尝试融合语言模型和图神经网络，同时更新两个模型的参数。然而，现有工作[2,3]无法同时对大量相邻文本进行建模，可扩展性较差，因此无法应用于大型文本图。GLEM框架为了更有效地整合图神经网络和语言模型，本文提出了GraphandLanguageLearningbyExpectationMaximization(GLEM)框架。GLEM框架基于变分期望最大化算法（VariationalEM），交替学习图神经网络和语言模型，从而实现良好的可扩展性。图2：GLEM框架具体来说，以节点分类任务为例，在步骤E中，GLEM根据真实标签和图神经网络预测的伪标签训练语言模型；在步骤M中，GLEM根据真实标签和语言模型预测的伪标签训练语言模型训练图神经网络。通过这种方式，GLEM框架有效地挖掘了局部文本信息和全局结构交互信息。通过GLEM框架训练的图神经网络（GLEM-GNN）和语言模型（GLEM-LM）都可以用来预测节点标签。实验论文的实验部分主要从以下几个方面对GLEM框架进行了探讨：有效性：GLEM模型可以有效地整合图神经网络和语言模型，并且对两种模型都有明显的提升。GLEM框架在三个OGB文本图节点分类任务上取得了第一名。可扩展性：通过交替训练图神经网络和语言模型，GLEM框架可以同时训练大型语言模型和深度GNN。无结构归纳能力：传统的GNN模型在面对没有图结构的新节点时表现不佳。相比之下，GLEM-LM仅使用文本特征（不需要图形结构）即可实现高效推理。模型收敛：GLEM使用EM迭代算法，可以在一些数据集上进行一次EM迭代收敛。图3：GLEM框架在OGBN-arxiv、products、papers100M数据集上获得第一名

上一篇：用不到30行代码用Keras编写你的第一个神经网络！

下一篇：如何使用Backend for Front-End处理复杂性_0

有效整合语言模型、图神经网络、文本图训练框架GLEM，实现新SOTA相关文章