时隔三年,我们完成了图灵奖获得者、UCLA计算机科学教授、美国国家科学院院士、2022年被誉为“贝叶斯网络之父”的你的杰作《因果论:模型、推理和推断》。本书原版第一版写于2000年,开创了因果分析推理的新思路和新方法。革命在学术界产生了巨大影响。后于2009年对第二版进行了修订,结合当时因果研究的新发展,对内容进行了较大改动。我们目前正在翻译的这本书的英文原版是2009年出版的,至今已有十多年了。本书中文版的出版将有助于中国学者、学生和各领域从业者理解和掌握因果模型、推理和推理。尤其是在当下流行统计和机器学习的时代,如何实现从“数据拟合”到“数据理解”的转变?在未来十年,我们如何从“所有知识都来自数据本身”这一目前占主导地位的假设转变为全新的机器学习范式?会不会引发“第二次人工智能革命”?正如图灵奖授予珀尔一样,他评价他的工作是“在人工智能领域的基础性贡献。他提出了概率和因果推理算法,彻底改变了人工智能原有的基于规则和逻辑的方向”。我们期待这种Paradigms能够为机器学习带来新的技术方向和前进动力,最终能够在实际应用中发挥作用。正如Pearl所说,“数据拟合目前牢牢主导着当前的统计和机器学习领域,是当今大多数机器学习研究者的主要研究范式,尤其是那些从事联结主义、深度学习和神经网络的研究者。”网络技术研究人员。”这种“数据拟合”范式在计算机视觉、语音识别和自动驾驶等应用中取得了令人瞩目的成功。然而,许多数据科学领域的研究人员也意识到,从目前的实践来看,机器学习无法产生智能决策所需的那种理解。这些问题包括:健壮性、可迁移性、可解释性等。我们来看一个例子。1、统计数据可靠吗?这几年很多自媒体人都会以为自己是统计学家。因为“数据拟合”和“一切知识都来自数据本身”为很多重大决策提供了统计依据。但是,在做分析的时候,我们需要谨慎分析。毕竟,事情并不总是乍看之下的样子!一个与我们生活息息相关的案例。十年前,市中心房价8000元/平方米,一共卖出1000万平方米;高新区4000元/平方米,共售出100万平方米;总体来看,全市平均房价为7636元/平方米。现在,市中心1万元/平方米,但由于市中心土地供应不足,仅售出200万平方米;高新区6000元/平方米,但因新增土地增加,已售出2000万平方米;总体看,现在全市平均房价为6363元/平方米。因此,房价在不同地区有所上涨,但总体上会有疑问:为什么现在房价在下跌?图1房价按地区划分的趋势与总体结论相反。我们知道这种现象叫做辛普森悖论。这些案例清楚地表明,当我们没有提供足够的观察变量时,我们是如何从统计中得到完全错误的模型和结论的。在这种大流行的情况下,我们通常有全国范围的统计数据。如果我们按地区或市/县分组,我们可能会得出截然不同的结论。在全国范围内,我们可以观察到新冠病例数有所下降,尽管某些地区的病例数会有所增加(这可能预示着下一波浪潮的开始)。如果存在非常不同的群体,例如人口非常不同的地区,也会发生这种情况。在国家数据中,人口稀少地区的病例激增可能与人口稠密地区的病例减少相形见绌。类似的基于“数据拟合”的统计问题比比皆是。举以下两个有趣的例子。如果我们收集尼古拉斯·凯奇每年出演的电影数量和美国溺水人数的数据,我们会发现这两个变量高度相关,数据拟合得非常好。图2尼古拉斯·凯奇每年主演的电影数量和美国溺水人数如果我们收集每个国家人均牛奶销量和诺贝尔奖获得者人数的数据,我们会发现这两个变量是高度相关的。图3人均牛奶消费量与诺贝尔奖获得者人数从我们的常识来看,这些是伪相关,甚至是悖论。但从数学和概率论的角度来看,出现伪相关或悖论的情况在统计和计算上都没有问题。如果任何有因果基础的人都知道,这是因为隐藏在数据中的所谓潜在变量,未观察到的混杂因素。图4自变量导致两个变量之间的错误相关。Pearl在《因果论》中给出了一个解决范式,对上述问题进行了详细的分析和推导,并强调因果关系与统计有本质区别。虽然因果分析和推理仍然是基于统计的上下文。Pearl提出了干预操作(operators)的基本计算模型,包括后门原理和具体计算公式,是目前对因果关系最数学化的描述。“因果关系及相关概念(如随机化、混杂、干预等)不是统计概念”,这是贯穿珀尔因果分析思想的一条基本原则,珀尔称之为第一原则[2]。那么,目前数据驱动的机器学习方法,尤其是那些严重依赖统计方法的算法,很可能在学习到的模型中出现半真半假、误导性或相反的结果。这是因为这些模型倾向于根据观察到的数据的分布而不是生成数据的机制来学习。2、机器学习迫切需要解决的三个问题的鲁棒性:随着深度学习方法的普及,计算机视觉、自然语言处理和语音识别等研究广泛使用了最先进的深度神经网络结构。但是仍然存在一个长期存在的问题,即在现实世界中,我们收集的数据分布通常很少是完整的,可能与现实世界中的分布不一致。在计算机视觉应用中,训练集和测试集的数据分布可能受到像素差异、压缩质量等因素的影响,也可能受到相机位移、旋转或角度的影响。这些变量实际上是因果概念中的“干预”问题。由此,提出了简单的算法来模拟干预,具体测试分类和识别模型的泛化能力,例如空间偏移、模糊、亮度或对比度的变化、背景控制和旋转以及在多种环境中的采集。图像等。到目前为止,虽然我们在使用数据增强、预训练、自监督学习等方法在鲁棒性方面取得了一些进展,但对于如何解决这些问题还没有明确的共识。有人认为,这些修正可能还不够,超出IID假设的泛化不仅需要学习变量之间的统计关联,还需要学习潜在的因果模型,以阐明数据生成的机制并允许概念通过干预分配变化进行模拟。可转移性:婴儿对物体的理解是基于跟随随着时间的推移表现一致的物体。这种方法允许婴儿快速学习新任务,因为他们的知识和对物体的直觉理解可以重复使用。同样,要想有效地解决现实世界的任务,就需要在新场景中重用学到的知识和技能。研究证明,了解环境的机器学习系统更加高效和通用。如果我们对现实世界进行建模,许多模块在不同的任务和环境中表现出相似的行为。因此,面对新的环境或任务,人或机器可能只需要调整其内部表示中的几个模块。在学习因果模型时,适应新环境或新任务所需的样本更少,因为大部分知识(即模块)无需进一步训练即可重复使用。可解释性:可解释性是一个微妙的概念,仅用布尔逻辑或统计概率的语言无法完全描述,它需要额外的介入概念,甚至是反事实概念。因果关系中可操纵性的定义侧重于条件概率(“看到人们打开雨伞表明正在下雨”)不能可靠地预测主动干预的结果(“收起雨伞并不能阻止下雨”)这一事实).因果关系被视为推理链的一个组成部分,它可以为远离观察到的分布的情况提供预测,甚至可以为纯假设场景提供结论。从这个意义上说,发现因果关系意味着获得独立于观察到的数据分布和训练任务的可靠知识,从而为可解释的学习提供明确的指导。3.三个层次的因果学习建模具体来说,基于统计模型的机器学习模型只能对相关性进行建模,相关性往往会随着数据分布的变化而变化;而因果模型则是基于因果关系建模,抓住了数据生成的本质,反映了数据生成机制之间的关系。这样的关系更稳健,并且具有泛化分布的能力。例如,在决策理论中,因果关系和统计之间的区别更为明显。决策论中存在两类问题,一类是当前环境已知,干预有计划,结果可预测。另一种是知道当前的环境和结果,并推断原因。前者称为求结果问题,后者称为溯因问题[3]。i.d.下预测能力的统计模型条件只是对观察到的现实世界的粗略描述,因为它们只关注相关性。对于样本和标签,我们可以使用估计值来回答这样的问题:“这张特定照片中有狗的概率是多少?”“给定一些症状,心力衰竭的概率是多少?”。这些问题可以通过观察足够多的i.i.d.来回答。生成的数据。虽然机器学习算法可以很好地完成这些事情,但准确的预测结果对于我们的决策来说还不够,因果学习提供了有益的补充。就前面的例子而言,尼古拉斯凯奇在电影中的出现频率与美国的溺水率呈正相关。我们确实可以训练一个统计学习模型,通过尼古拉斯·凯奇在电影中出现的频率来预测美国的溺水率,但显然这两者之间并没有直接的因果关系。统计模型只有在独立且同分布时才是准确的。如果我们进行任何干预来改变数据分布,都会导致统计学习模型出现错误。Predictivepowerunderdistributionshift/intervention我们进一步讨论了干预问题,这个问题更具挑战性,因为干预(manipulation)会让我们跳出统计学习中的独立同分布假设。继续尼古拉斯凯奇的例子,“今年增加尼古拉斯凯奇主演的电影数量会增加美国的溺水率吗?”是一个干预问题。显然,人为干预会改变数据分布,统计学习所依赖的条件就会被打破,因此会失败。另一方面,如果我们可以在存在干预的情况下学习预测模型,那么这就有可能让我们获得一个对现实环境中的分布变化更稳健的模型。其实,这里所谓的干预并不是什么新鲜事。很多东西本身会随着时间发生变化,比如人的兴趣偏好,或者模型的训练集分布和测试集本身的分布不匹配。正如我们前面提到的,神经网络的鲁棒性作为与因果推理密切相关的研究课题越来越受到关注。分布偏移情况下的预测不能局限于测试集上的高精度。如果我们要在实际应用中使用机器学习算法,那么我们必须相信模型的预测结果也会随着环境条件的变化而变化。精确的。在实际应用中可能存在多种类型的分布偏移。一个模型只在某些测试集上取得了好的结果。这并不意味着我们在任何情况下都可以信任该模型。这些测试集可能正好适合这些测试集样本的分布。为了让我们在尽可能多的情况下信任预测模型,我们必须使用能够回答干预问题的模型,至少不能单独使用统计学习模型。回答反事实问题的能力反事实问题包括推理事情发生的原因,想象执行不同行动的后果,从而能够决定采取哪些行动来达到预期的结果。回答反事实问题比干预更难,但这对人工智能来说也是一个非常关键的挑战。如果一个干预问题是“如果我们现在让一个病人经常锻炼,心力衰竭的概率会如何变化?”,相应的反事实问题是“如果这个已经发生心力衰竭的病人一年前开始锻炼,他还会得到心脏衰竭?”显然,回答此类反事实问题对于强化学习非常重要。与研究相同。4.因果学习应用最后,我们看看因果学习如何应用于各个领域。2021年诺贝尔经济学奖已授予JoshuaD.Angrist和GuidoW.Imbens“因为他们对因果关系分析的方法论贡献”。他们研究了因果推理在经验劳动经济学中的应用。诺贝尔经济学奖评选委员会认为“自然实验(随机或对照试验)可以帮助回答重要问题”,但如何“用观察数据回答因果关系”更具挑战性。经济学中的一个重要问题是因果关系。例如,移民如何影响当地人的劳动力市场前景?可以毕业吗?学校影响收入增长?最低工资如何影响技术工人的就业前景?这些问题这很难回答,因为我们缺乏反事实解释的正确方法。自20世纪70年代以来,统计学家开发了一个计算“反事实”的框架,以揭示两个变量之间的因果关系。在此基础上,经济学家进一步发展了间断回归、双重差分、倾向得分等方法,并广泛应用于各种经济政策问题的因果关系研究。从6世纪的宗教文本到2021年的因果机器学习,包括因果自然语言处理,我们可以使用机器学习、统计学和计量经济学来模拟因果效应。经济学和其他社会科学的分析围绕因果效应的估计展开,即通过特征变量对结果变量进行干预的效果。事实上,在大多数情况下,我们感兴趣的是所谓的干预效果。干预效应是干预或治疗对结果变量的因果效应。例如,在经济学中,分析最多的干预效应之一是补贴对企业收入的因果效应。为此,鲁宾(Rubin)提出了潜在成果框架(potentialoutcomeframework)。尽管经济学家和其他社会科学家更擅长准确估计因果效应而不是预测它们,但他们也对机器学习方法的预测能力感兴趣。例如,准确的样本预测能力或处理大量特征的能力。但正如我们所见,经典的机器学习模型并不是为了估计因果效应而设计的,使用机器学习中现成的预测方法可能会导致对因果效应的估计有偏差。那么,我们必须改进现有的机器学习技术,利用机器学习的优势,持续有效地估计因果效应,这就导致了因果机器学习的诞生!目前,因果机器学习大致可以分为两个研究方向,这取决于要估计的因果效应的类型。一个重要的方向是改进机器学习方法,以获得无偏见和一致的平均干预效果估计。该研究领域的模型试图回答以下问题:客户对营销活动的平均反应是什么?价格变化对销售的平均影响是什么?此外,因果机器学习研究的另一个发展方向侧重于改进机器学习方法以揭示干预效果的特异性,即识别干预效果大于或小于平均水平的个体亚组。这些类型的模型旨在回答以下问题:哪些客户对营销活动的反应最大?价格变化对销售的影响如何随顾客年龄而变化?除了这些活生生的例子,我们还可以感受到,因果机器学习之所以受到数据科学家的关注,更深层次的原因在于模型的泛化能力。描述数据之间因果关系的机器学习模型可以推广到新环境,但这仍然是当今机器学习面临的最大挑战之一。Pearl对这些问题进行了更深层次的分析,认为如果机器不能进行因果推理,我们将永远无法实现真正??的人类水平的人工智能,因为因果关系是我们人类处理和理解周围复杂世界的关键机制。在《因果论》中文版序言中,Pearl写道“未来十年,这个框架将与现有的机器学习系统相结合,可能会引发‘第二次因果革命’。我希望这本书也能使中国读者能够积极参与这场即将到来的革命。”
