随着深度学习模型的应用和推广,人们逐渐发现模型往往利用数据中的虚假相关(SpuriousCorrelation)来达到更高的训练效果。然而,由于这种关联往往不建立在测试数据上,因此此类模型的测试性能往往不尽如人意[1]。其本质是传统的机器学习目标(EmpiricalRiskMinimization,ERM)假设了训练集和测试集的独立同分布特征,但在现实中,独立同分布假设成立的场景往往是有限的。在很多现实场景中,训练数据的分布和测试数据的分布通常会表现出不一致,即DistributionShifts。在这类场景下提升模型性能的问题通常被称为分布外泛化(Out-of-Distribution)问题。诸如ERM之类的方法侧重于学习数据中的相关性而非因果关系,通常难以应对分布变化。尽管近年来出现了很多方法,利用因果推理(CausalInference)中的不变性原理在分布外问题上取得了一些进展,但对图数据的研究仍然有限。这是因为图数据的分布外泛化比传统的欧氏数据更难,这给图机器学习带来了更多的挑战。在本文中,我们以图分类任务为例,利用因果不变性原理探索图的分布外泛化。近年来,借助因果不变性原理,人们在欧几里得数据的非分布泛化问题上取得了一定的成功,但对图数据的研究还很有限。与欧几里得数据不同,图的复杂性对使用因果不变性原理和克服分布外泛化这一难题提出了独特的挑战。为了应对这一挑战,我们在这项工作中将因果不变性纳入图机器学习,并提出了因果启发的不变图学习框架,为解决图数据的分布外泛化问题提供了新的理论和方法。该论文已发表在NeurIPS2022上。这项工作是香港中文大学、香港浸会大学、腾讯人工智能实验室和悉尼大学的合作成果。论文题目:LearningCausallyInvariantRepresentationsforOut-of-DistributionGeneralizationonGraphs论文链接:https://openreview.net/forum?id=A6AFK_JwrIW项目代码:https://github.com/LFhase/CIGAGraphDataDistributionOutergeneralization图数据的分布外泛化难点是什么?近年来,图神经网络在涉及图结构的机器学习应用中取得了巨大的成功,例如推荐系统和AI辅助药物。但是,由于现有的图机器学习算法大多依赖于数据独立同分布的假设,当测试数据和训练数据发生偏移(DistributionShifts)时,算法的性能会大大降低。同时,由于图数据结构的复杂性,图数据的非分布泛化比欧几里德数据更普遍,也更具挑战性。图1.图上的分布偏移示例。首先,图数据的分布偏移可以出现在图节点特征分布(Attribute-levelShifts)上。例如,在推荐系统中,训练数据涉及的商品可能来自一些比较热门的品类,涉及的用户也可能来自某些地区,而在测试阶段,系统需要妥善处理用户所有类别和地区和商品[2,3,4]。此外,图数据的分布偏移也可以出现在图的结构分布(Structure-levelShifts)中。早在2019年,人们就注意到在较小的图上训练得到的图神经网络学习到有效的注意力(Attention)权重很难泛化到更大的图上[5],这也推动了一系列相关工作已经提出[6,7]。在现实场景中,这两种类型的分布偏移可能经常同时出现,并且这些不同级别的分布偏移也可能与待预测的标签具有不同的虚假关联模式。例如,在推荐系统中,来自特定类别产品和特定区域的用户倾向于在产品用户交互图上表现出独特的拓扑结构[4]。在药物分子性质的预测中,参与训练的药物分子可能太小,预测结果也会受到实验测量环境的影响[8]。此外,欧几里德空间的分布外泛化往往假设数据来自多个环境(Environment)或领域(Domain),进一步假设模型可以得到训练数据中每个样本所属的环境在训练过程中,以探索环境的不变性。然而,获取数据的环境标签往往需要一些与数据相关的专家知识,并且由于图数据的抽象性,获取图数据的环境标签的成本更高。因此,现有的大多数图数据集如OGB不包含此类环境标签信息,甚至少数如DrugOOD数据集有环境标签,但存在不同程度的噪声。现有方法能否解决图上的分布外泛化问题?为了对图数据分布外泛化的挑战有一个直观的认识,我们基于Spurious-Motif[9]数据集构建新数据进一步实例化上述挑战,并尝试使用现有的方法,如Euclideandataonout-of-distributiongeneralization的训练目标IRM[10],或者说表达能力更强的GNN[11],分析现有方法是否可以解决图数据的out-of-distributiongeneralization问题。图2.SpuriousMotif数据集示例。SpuriousMotif任务如图2所示,主要根据输入图是否包含具有特定结构(如House,或Cycle)的子图来判断图标签,节点颜色代表节点的属性。使用这个数据集可以清楚地测试不同级别的分布偏移对图神经网络性能的影响。对于一个普通的用ERM训练的GNN模型:如果训练阶段大部分有House子图的样本都是绿色节点居多,Cycle为蓝色,那么在测试阶段,模型倾向于预测任何有大量绿色节点的节点nodes的图形是“House”,而蓝色节点的图形是“Cycle”。如果在训练阶段大多数具有House子图的样本与六边形子图共现,那么在测试阶段,模型倾向于将任何具有六边形结构的图判断为“House”。此外,模型在训练过程中无法获取任何与环境标签相关的信息,实验结果如图3所示(更多结果见论文附录D)。图3.现有方法在不同图形分布变化下的性能。如图3所示,普通的GCN无论是用ERM还是IRM训练,都无法应对图的结构偏移(Struc);加上图节点属性的偏移量(Mixed)和图大小分布的偏移量(图3)后,模型性能会进一步下降;此外,即使使用表达能力更强的kGNN,也难以避免严重的性能损失(平均性能降低,或方差变大)。由此,我们自然而然地引出了研究问题:我们如何才能获得能够应对各种图分布变化的GNN模型?图数据非分布泛化的因果模型为了解决上述问题,我们需要定义学习目标,即不变图神经网络(InvariantGNN),即仍然执行的模型wellintheworstenvironment(rigorous定义见论文):Definition1(InvariantGraphNeuralNetworks)给定一系列从不同因果关系环境中收集的图分类数据集,其中包含来自环境e的独立同分布样本,考虑一个图神经网络,其中和分别是输入图空间和样本空间,f是不变图神经网络当且仅当,即所有环境的最坏经验损失(最坏经验风险)被最小化,其中是模型在环境中损失经验。模型在训练时只能获取训练环境中的部分数据。如果不对数据的处理过程做任何假设,就很难达到不变图神经网络定义所要求的minmax最优。因此,我们使用StructuralCausalModel从因果推理(CausalInference)的角度对图的生成过程进行建模,描述环境之间的关联,以试图定义图数据上的因果不变性。图4.图数据生成过程的因果模型。在不失一般性的情况下,我们将影响图生成的所有潜在变量合并到潜在空间中,并将图生成过程建模为。此外,对于潜变量,根据是否受到环境E的影响,我们将其分为不变潜变量和伪潜变量。相应地,隐藏变量C和S会分别影响G的某个子图的生成,分别记为不变子图和伪子图,如图4(a)所示,而C主要控制图的标签Y。这也可以进一步推导出C和Y比S具有更高的互信息。这样的生成过程对应了很多实际的例子,比如一个分子的药性通常是由某个关键基团(分子子图)决定的(比如羟基-H2O到分子的水溶解度)。此外,C在隐空间中与Y、S、E有多种类型的交互,主要是跟进假隐变量S和标签Y是否有除不变隐变量C之外的额外关联,即,它可以概括为两种:图4(b)中的FIIF(FullyInformativeInvariantFeature)和图4(c)中的PIIF(PartiallyInformativeInvariantFeature)。其中FIIF意味着标签独立于给定不变信息的虚假相关性。PIIF则相反。应该注意的是,我们的因果模型旨在广泛地模拟各种图生成模型,以覆盖尽可能多的图分布变化。随着对图形生成过程的更多了解,图4中显示的因果模型可以进一步推广到更具体的示例。如附录C.1所示,我们展示了如何将因果图推广到Bevilacqua等人之前的工作。[7]通过添加额外的图形限制(graphon)假设来分析图形大小分布的变化。基于以上因果分析可知,当模型只使用不变子图进行预测时,即只使用它们之间的相关性时,模型的预测不会受到环境E变化的影响;相反,如果模型的Prediction依赖于任何与S或相关的信息,其预测结果将因E的变化而发生较大变化,从而导致性能损失。因此,我们的目标可以从学习不变图神经网络进一步细化为:a)识别潜在的不变子图;b)使用识别出的子图预测Y。为了进一步对应数据生成的算法过程,我们将图神经网络进一步拆分为子图识别网络(FeaturizerGNN)和分类网络(ClassifierGNN),其中,为的子图空间。则模型的学习目标可以表示为式(1):其中,是子图识别网络对不变子图的预测;是与Y的互信息,通常,可以通过最小化使用预测Y的经验损失实现来实现最大化。但是由于没有E,我们很难直接用E来验证独立性,所以必须寻求其他等价条件来识别所需的不变子图。Causal-InspiredInvariantGraphLearning为了解决不存在的不变子图识别问题,基于等式(1)的框架,我们希望寻求等式(1)的易于实现的等价条件。特别地,我们首先考虑一个更简单的情况,其中底层不变子图的大小是固定的并且已知。在这种情况下,考虑最大化,虽然与Y具有相同的大小,但由于Y也与Y相关联,在没有任何其他约束的情况下,最大化可能使估计的不变子图包含部分关于Y的互信息的虚假子图。为了“挤出”中可能的虚假子图部分,我们将进一步从因果模型中寻找更具体的属性。注意,无论PIIF还是FIIF的spuriousassociationtype,对于与标签Y最大化互信息的子图,我们有:在不同的环境中,具有相同不变隐变量C的不变子图在这两个环境中的两个互信息最大的子图,即同一环境下不同不变隐变量C对应的不变子图。两个不变子图是该环境下互信息最小的两个子图,即;结合以上两个性质,我们可以推断,由于我们在实践中很难直接观察到,所以我们可以将其作为公式(2)中的代理。同时,当和同时最大化时,它们会自动最小化,否则模型的预测会崩溃为一个平凡的解决方案。由此,我们得到了简单情况下不变子图的等价条件,结合公式(1),我们得到了第一个版本的因果启发不变图学习(Causality-inspiredInvariantGraphleArning)框架,即CIGAv1:其中,and,即和G来自同一类别Y。我们在论文中进一步证明,CIGAv1可以在已知图大小的情况下成功识别对应于图4的因果模型中的潜在不变子图。然而,由于之前的假设过于理想,在实践中,不变子图的大小可能会发生变化,而对应的大小往往不为我们所知。在没有子图大小的假设下,只需要将全图识别为不变子图即可满足CIGAv1。因此,我们考虑进一步寻找关于不变子图的性质来消除这个假设。请注意,在最大化时,看起来\begingroup中的虚假子图部分可能与删除的不变子图部分共享相同且相关的互信息。那么,我们可以做相反的事情,同时最大化以删除的可能的虚假子图部分吗?答案是肯定的,我们可以使用与Y的关联来与和的估计值竞争。需要注意的是最大化的时候一定要保证不会超过,否则预测会陷入平凡解。结合这个附加条件,我们可以从等式(3)中删除关于不变子图大小的假设,得到以下CIGAv2:图5.受因果启发的不变图学习框架的示意图。CIGA的实现:在实践中,通常很难估计两个子图的互信息,有监督的对比学习[11]提供了一种可行的解决方案:对应式(4)中的正样本,是对应的图表示到。当时,公式(5)提供了一种基于vonMises-Fisher核密度的非参数再代入熵估计(NonparametricResubstitutionEntropyEstimator)[13,14]。CIGA核心部分的最终实现如图5所示,即通过缩小隐藏表示空间中同类别不变子图的图表示,同时最大化不同类别不变子图的图表示来最大化。另外,对于式(4)中的另一个约束,我们可以通过铰链损失(hingeloss)的思想来实现,即预测时只优化经验损失大于对应不变子图的假子图。实验和讨论在实验中,我们使用16个合成或真实世界的数据集在不同的图形分布变化下充分验证了CIGA。在我们的实验中,我们使用可解释的GNN框架[9]实现了CIGA的原型,但实际上CIGA的实现还有更多。具体数据集和实验细节详见文中实验部分。StructuralDistributionMisalignmentandMixedDistributionMisalignmentonSyntheticDatasetPerformance我们首先基于SPMotif数据集[9]构建了SPMotif-Struc和SPMotif-Mixed数据集,其中SPMotif-Struc包含特定子图和其他子图结构的错误关联和图大小的分布偏移量;而SPMotif-Mixed在SPMotif-Struc的基础上增加了图节点属性级别的分布偏移量。表中第一列是ERM和可解释GNN的基线,第二列是欧氏空间中最先进的分布外泛化算法。从结果可以发现,无论是较好的GNN框架还是欧几里得空间中的分布外泛化算法,都受到图上分布偏移的影响,当出现更多的分布偏移时,性能损失(更小的平均分类性能或更大的方差)将进一步增强。相比之下,CIGA可以在不同的强度分布变化下保持良好的性能,并大大超过最佳基线性能。真实数据集上各种图形分布偏移的性能然后,我们进一步测试了CIGA在真实数据集上的性能以及各种真实数据集中存在的图形分布偏移,包括来自AI辅助药物分子特性预测的DrugOOD。三个不同环境划分的三个数据集(实验环境Assay、分子骨架Scaffold、分子大小Size),包括各种真实应用场景的图分布偏移量;基于欧几里得空间中的经典图像数据集ColoredMNIST[10]转换后的CMNIST-SP主要包括图节点属性的PIIF型分布偏移量;Graph-SST5和Twitter[15]在自然语言情感分类数据集SST5和Twitter[15]的基础上进行了转换,并额外加入了图度的分布偏移量。转移。此外,我们还使用了之前研究较多的4个分子图尺寸分布偏移数据集[7]。测试结果如上表所示。GNN或欧几里得空间的分布外泛化优化目标训练产生的模型性能甚至比使用ERM训练的普通GNN模型更弱。这种现象也类似于在欧几里德空间[16]更困难的任务下的分布外泛化实验中观察到的现象,反映了对真实数据进行分布外泛化的难度和现有方法的不足。相比之下,CIGA可以在所有真实数据和图的分布偏移上得到改善,甚至在一些数据集如Twitter和PROTEINS中达到经验最优的Oracle水平。在最新的图分布泛化测试基准GOOD上对图分类数据集的初步测试也表明,CIGA是目前能够应对各种图分布偏移的最好的图分布泛化算法。由于使用了可解释的GNN作为CIGA的原型实现架构,我们也将模型识别得到的DrugOOD进行了可视化,发现CIGA确实找到了一些相对一致的分子群进行分子性质预测。这可以为后续的AI辅助药房提供更好的基础。图6.CIGA在DrugOOD中识别的部分不变子图。总结与展望本文从因果推理的角度出发,首次将因果不变性引入各种图分布偏移下的图分布泛化问题,提出了一种新的理论上有保障的求解框架CIGA。大量的实验也充分验证了CIGA出色的分布外泛化性能。展望未来,基于CIGA,我们可以进一步探索更好的实现框架[17],或者为CIGA引入更好的理论上有保证的数据扩充方法[3,18],从理论上对图上的关联进行建模。CovariateShift[19]进一步提高CIGA对不变子图的识别能力,促进图神经网络在AI辅助药房等实际应用场景中的真正应用。
