作者|求真务实随着人工智能的不断发展,安全与合规问题变得越来越重要。当前机器学习的主要局限之一是其学习模型都是基于关联框架,存在样本选择偏差和稳定性差的问题。因果推理模型的出现为机器学习开辟了一条新的思路。近日,美团技术团队特邀清华大学计算机学院终身副教授崔鹏先生,为美团内部学员介绍了因果推理技术的最新发展趋势和现阶段取得的一些成果。本文为崔鹏老师分享的文字记录整理,希望对大家有所帮助或启发。崔鹏,清华大学计算机系副教授,博士生导师,研究方向为大数据驱动的因果推理与稳定预测、大规模网络表征学习等,在顶级期刊发表论文100余篇数据挖掘和人工智能领域的国际会议,并获得5次国际顶级会议或期刊论文奖,两次入选数据挖掘领域顶级国际会议KDD最佳论文特刊。曾任IEEETKDE、ACMTOMM、ACMTIST、IEEETBD等国际顶级期刊编委,获国家自然科学二等奖、部自然科学奖一等奖教育,电子学会自然科学奖一等奖,北京市科技进步奖一等奖,中国计算机学会青年科学家奖,国际计算机协会杰出科学家(美国计算机协会)。背景人工智能已广泛应用于许多风险敏感领域,包括互联网、医疗、司法、生产、金融科技等。风险不仅来自现场本身,也来自日益严格的法律法规。因此,人工智能技术带来的风险值得关注。人工智能风险防控可谓“知其然,不知其所以然”。每个人都知道如何做出预测,但很难回答“为什么”,比如为什么会做出这样的决定?什么时候才能相信系统的判断?很多问题的模型我们无法给出一个相对准确的答案。在这种情况下,会带来一系列的问题。首先是不可解释性,这也导致“人机协作”模式难以在现实世界落地。例如,人工智能技术很难应用到医疗行业,因为医生不知道系统判断的依据是什么,所以目前的人工智能技术在实现上有很大的局限性。第二,目前主流的人工智能方法都是基于独立同分布的假设,这就要求模型的训练集数据和测试集数据来自同一分布,但在实际应用中,很难保证什么模型将应用于的数据类型,因为模型的最终性能取决于训练和测试分布的拟合程度。第三,人工智能技术应用于社会问题时,会引入公平风险。比如在美国,如果两个人的收入、教育等背景完全一样,系统判断黑人的犯罪率可能是白人的十倍。最后,不可逆性。不可能通过调整输入来得到想要的输出,因为推理和预测的过程是不可逆的。如图1所示,上述问题的主要根源在于目前的人工智能是基于关联框架的。在基于相关性的框架下,可以得出结论,收入-犯罪率和肤色-犯罪率均具有很强的相关性。在基于因果关系的框架中,当我们需要判断一个变量T是否对输出Y有因果影响时,不是直接衡量T和Y的关系,而是在控制X的同时看T和Y的关系。关系。例如,X(收入水平)在两个对照组中的分布是一样的(要么有钱要么没钱),然后通过调整T(肤色)来观察两组的Y(犯罪率)是否会同样存在显着差异,然后我们会发现黑人和白人的犯罪率没有显着差异。那么,为什么肤色和犯罪率在基于关联的框架中具有很强的相关性?这是因为大多数黑人收入较低,导致总体犯罪率较高,但并不是肤色造成的。图2从根本上说,问题不在于关系模型,而在于如何使用机器学习。一般来说,有3种方式来产生联想。首先是因果机制。因果关系是稳定的、可解释的、可追溯的。第二个是混杂效应,如果X导致了T和Y,那么T和Y之间就会存在虚假关联。第三个是样本选择偏差。比如狗和草的情况,当海滩环境发生变化时,模型无法识别狗。这是因为我们选取了大量草地环境中的狗作为样本,所以模型会认为狗和草之间存在某种关系。这也是一种错误的联想。以上三种方法中,除了因果关系可靠外,其他两种方法都不太可靠。但是,目前的机器学习领域并没有区分这三种产生关联的方式,其中存在很多虚假关联,导致模型的可解释性、稳定性、公平性、可追溯性等方面存在一定的问题。如果要从根本上突破当前机器学习的局限性,就需要使用更严谨的统计逻辑,比如用因果统计来代替原来的相关统计。图3因果推理在机器学习中的应用面临诸多挑战,因为因果推理最初的研究范围主要在统计学领域(包括哲学领域),而这些领域面临的环境都是小数据控制环境。生产过程可控。例如,在测试疫苗是否有效的行为实验中,我们可以控制谁接种疫苗,谁不接种。但在机器学习中,数据生成过程是不可控的。在大数据的观察性研究中,需要考虑大数据的高维、高噪声、弱先验等因素。挑战。另外,因果推理和机器学习的目标有很大的不同:因果推理需要理解数据产生的机制,而机器学习(包括互联网领域的很多应用)主要是预测数据中会发生什么。未来综艺。图4那么如何弥合因果推理和机器学习之间的差距呢?我们提出了一种因果启发的方法来学习推理和决策评估。首先要解决的问题是如何识别大规模数据中的因果结构。第二个要解决的问题是有了因果结构后如何与机器学习结合。目前的因果启发式稳定学习模型和公平无偏学习模型都是以此为目标的。第三个要解决的问题是如何利用这些因果结构来帮助我们优化决策,即反事实推理和决策优化机制。因果推理的两种基本范式因果模型图5因果推理有两种基本范式。第一个范例是结构因果模型。这个框架的核心是如何在已知的因果图中进行推理。例如,如何识别其中任何一个变量,以及该变量对另一个变量的影响有多大。目前已经有比较成熟的判断准则如后门准则(BackDoor)、前门准则(FrontDoor)等来消除混淆,通过Do-Calculus进行因果估计(CausalEstimation)方法。目前该方法面临的核心问题是我们在做观察性研究时无法定义因果图。虽然在某些领域(如考古学)可以通过专家知识来定义因果图,但这已经到了“专家系统”的晚年。在途中。总的来说,核心问题是如何发现因果结构。图6这里有一个衍生技术,叫做因果发现(CausalDiscovery),它可以根据条件独立性检测和已有数据定义因果图,利用已有变量频繁地进行条件独立性等一系列独立判断来定义因果关系graph,这是一个NP问题,可能存在组合爆炸问题。这是将结构因果模型应用于大规模数据的瓶颈,最近的一些研究,例如使用可区分因果发现,已经解决了这个问题。潜在结果框架第二种范式是潜在结果框架(PotentialOutcomeFramework)。该框架的核心是不需要知道所有变量的因果结构,而只需要知道其中一个变量是否对输出产生因果影响。我不关心的影响,但我们需要知道这个变量和输出之间存在哪些干扰因素(Confounders),并假设所有的干扰因素都被观察到了。上图7是一些背景知识和理论介绍。接下来我主要讲一下我们最近的一些思考和尝试,以及如何将这两种范式结合到具体问题中去。Differentiablecausaldiscoveryanditsapplicationinrecommendersystems因果发现与问题定义因果发现的定义是对于给定的一组样本,每个样本都以一些变量为特征,我们希望通过一些可观察的数据来发现这些变量变量之间的因果结构.找到的因果图可以被认为是图形模型。从生成模型的角度,我们希望找到一个因果图,使其能够根据因果结构生成这样一组样本。这组样本的可能性是最高的。图8引入了一个称为功能因果模型(FCM)的概念。所谓FCM,就是对于某一类变量X,由于因果图是有向无环图(DAG),所以这个变量一定有它的父节点。那么它的值一定是它的所有父节点通过一个函数加上噪声的作用产生的。比如在线性框架中,问题就变成了:如何找到一组W使得X的重构是最优的。有向无环图的优化一直是一个悬而未决的问题。2018年的一篇论文[1]提出了一种优化方法:可以在全空间的有向无环图中做梯度优化,通过增加DAG极限和稀疏约束(l1或l2正则化),使得最终的重构误差X被最小化。图9图10我们在实现这个框架的时候发现了一些问题。该框架的基本假设是所有变量的噪声必须服从高斯分布,并且噪声的尺度应该相似。如果不满足这个假设,就会出现一些问题,比如重构误差最小的结构可能不是groundtruth,这是可微因果关系发现方法的局限性。我们可以通过施加独立性约束来解决这个问题,并将独立性标准转化为可优化的形式进行优化。具体实现细节这里不再赘述,感兴趣的同学可以阅读论文[2]。可微因果发现在推荐系统中的应用,有整个推荐系统I.I.D(IndependentandIdenticalDistributed,独立同分布)的假设,也就是说用户和物品的训练集和测试集需要来来自同一个发行版,但实际上推荐系统存在各种OOD(OutOfDistribution)问题。首先是自然转变。例如,基于北京和上海的数据训练的模型可能对重庆的用户无效。二是推荐系统机制造成的人为偏移。我们希望提出一种更通用的方法来抵抗推荐算法中的各种OOD问题或偏差问题。针对这个问题,我们也做了一些研究工作[3]。OOD推荐系统中有一个不变的假设——一个人看到一个产品后是否购买不会随着环境的变化而改变。因此,只要保证用户对物品的偏好不变,这样的不变性假设就可以成立,从而给出更合理的推荐结果,这就是解决OOD问题的核心。图11如何保证用户偏好不变?基本共识是不变性和因果性具有某种等价的转换关系。如果能保证一个结构在各种环境下都有相同的预测效果,那么这个结构一定是一个因果结构,一个因果结构在各种环境下的表现是比较稳定的。因此,寻找不变的用户偏好变成了因果偏好学习的问题。推荐系统中有一种特殊的结构叫做二分图,我们需要基于这种特殊的结构设计一种因果发现方法。在这个最终学习到的模型中,只需要输入用户的表示,就可以知道用户会喜欢什么样的物品。图12图13显然,这种方法在提高推荐系统的可解释性、透明度和稳定性方面会有一定的好处。我们也对比过很多方法,可以看到它有比较明显的表现。推动。关于OOD泛化和稳定学习的一些思考OOD问题是机器学习中一个非常基础的问题。之前的工作基本上都是基于I.I.D的假设。迁移学习虽然是自适应的,但是由于迁移学习假设测试集是已知的,所以它的主体仍然是I.I.D的理论框架。我们从2018年开始在OOD方向做了一些研究。首先,OOD的定义是训练集和测试集不是来自同一个分布。如果训练集和测试集来自同一个分布,那么就是I.I.D。OOD可以分为两种情况。如果测试集的分布已知或部分已知,则为OODAdaptation,即迁移学习/领域自适应。如果测试集的分布未知,那才是真正的OOD泛化问题。这里的“泛化”概念不同于机器学习中的“泛化”概念。机器学习中的“泛化”更多是关于插值。训练数据里面的插值问题都是“插值”问题。如果要预测X超出插值域,就是一个“外推”问题。“外推”是一件比较危险的事情。什么情况下可以“外推”?如果你能找到不变性(invariance),你就可以做“外推”。之前做机器学习的时候,就是做I.I.D.,也就是数据拟合。我只需要防止过度拟合/欠拟合。但是现在要想解决OOD问题,就必须要找到不变性。有两条途径可以找到不变性。第一条路径是因果推理。因果关系和不变性之间存在等价关系。也就是说,只要找到因果结构,就可以保证不变性。事实上,因果推理本身就是关于不变性的。性变化的科学。稳定学习,某种程度上就是希望模型在做学习和预测的时候是基于因果推理的。我们发现,通过重新加权样本,可以使所有变量独立,使基于关联的模型变成基于因果的模型。有兴趣可以看相关论文。第二条路径是从差异中寻找不变性。统计学中有一个概念,就是异质性。比如一个狗分布有两个峰,一个峰是沙滩上的狗,一个峰是草地上的狗。既然这两个峰代表的是狗,那么其中一个一定是有不变性的,不变性部分具有OOD泛化能力。数据的异构性无法预定义。我们希望以数据驱动的方式找到隐藏的异质性,并在隐藏的异质性中找到不变性,两者的学习是相互促进的。图14中所谓的稳定学习就是使用一个分布训练集和各种不同未知分布的测试集。优化的目标是最小化准确率的方差。也就是说,假设有一个训练分布,它本身就具有一定程度的异质性,但没有人为地划分它的异质性。具有良好性能的模型。我们去年写了一篇关于OOD泛化的调查[4],对这个问题做了系统的分析。有兴趣的同学可以参考。
