在最近发表的一篇论文中,图灵奖获得者YoshuaBengio等人。详细介绍了其团队目前的研究重点:将机器学习与因果推理相结合的因果表征学习。研究人员不仅全面回顾了因果推理的基本概念,还阐述了它与机器学习的融合及其对机器学习的深远影响。论文已被《Proceedings of the IEEE》期刊接收。机器学习和因果推理一直是两个相对独立的研究方向,各有优缺点。但这几年,两人开始互相学习,互相促进发展。例如,机器学习领域的蓬勃发展推动了因果推理领域的发展。使用决策树、集成方法和深度神经网络等强大的机器学习方法,可以更准确地估计潜在结果。在MachineHeart2018年的报告中,图灵奖得主、因果模型倡导者之一的JudeaPearl也讨论了当前机器学习理论的局限性和因果推理的七大启示。因此,近年来,将两者结合起来的CausalRepresentationLearning受到越来越多的关注,成为人类向HumanLevelAI迈进的一个潜在方向。2020年初,机器之心精选了几篇因果表示学习领域的最新文献,详细分析了不同方法的基本结构,帮助感兴趣的读者了解因果学习与机器学习相结合的方向和可能性。(参考:反事实推理,特征分离,“因果表征学习”的最新研究有哪些?)今天推荐另一篇因果表征学习论文:《Towards Causal Representation Learning》,由YoshuaBengio团队发表。被《Proceedings of the IEEE》期刊接收。在2020年底的一次演讲中,本吉奥表示这是他们当前研究项目的核心。论文链接:https://arxiv.org/pdf/2102.11107.pdf在本文中,YoshuaBengio等人。回顾因果推理的基本概念,并将它们与机器学习中的关键开放问题联系起来,例如迁移和泛化。分析因果推理对机器学习研究的可能贡献。反之亦然:大多数因果研究的前提是因果变量。因此,当前人工智能和因果关系领域的核心问题是因果表征学习,即基于低层观察发现高层因果变量。最后,本文描绘了因果关系对机器学习的影响,并提出了该交叉点的核心研究方向。本文的主要贡献如下:论文第2章介绍了物理系统中不同层次的因果建模,第3章展示了因果模型和统计模型之间的区别。这里不仅探讨了建模功能,还探讨了所涉及的假设和挑战。论文第四章将独立因果机制(IndependentCausalMechanisms,ICM)原理扩展到基于数据估计因果关系的核心部分,即假设稀疏机制转移(SparseMechanismShift)作为ICM原理的结果,并讨论其对学习因果模型的影响。影响。论文的第5章回顾了现有的基于适当描述符(或特征)学习因果关系的方法,涵盖了经典方法和基于深度神经网络的现代方法,重点介绍了导致因果发现的基本原理。论文的第6章探讨了如何基于因果表示的数据学习有用的模型,并从因果的角度看待机器学习问题。论文第7章分析了因果关系对实际机器学习的影响。我们使用因果关系的语言以及半监督学习、自监督学习、数据扩充和预训练等常用技术重新解释稳健性和泛化。研究人员还探索了因果关系和机器学习在科学应用中的交集,并考虑如何结合两者的优点来创造更通用的人工智能。分层ID因果建模的设置预测统计模型是对现实的粗略描述,因为它们只需要建立关联模型。给定输入样本X和目标标签Y,我们可能想要近似P(Y|X)来回答诸如“这张图片包含狗的概率是多少?”之类的问题。或者“这张图片包含狗的概率是多少?”),患者患有心力衰竭的概率是多少?”。在正确的假设下,这些问题可以通过观察足够数量的基于P(X,Y)的独立同分布(i.i.d.)数据来回答。distributionshift干预问题比预测更具挑战性,因为它们涉及超出统计学习i.d.设置的行为。干预可能会影响因果变量子集的值及其关系。例如,“可以增加鹳的数量在一个国家增加了人类生育率的增长?”,“如果烟草在社会上受到更多的指责,吸烟的人会减少吗?”行动导致预期的结果。回答反事实问题比回答干预性问题更难。但是呃,这可能是AI面临的一个关键挑战,因为智能体受益于想象行动的后果并知道哪些行动会导致特定的结果。数据的性质:观察、干预、(非)结构化数据格式在推断关系类型中起着重要作用。我们可以辨别数据模式的两个轴:观察数据与介入数据,人工设计的数据与原始(非结构化)感官输入。观察数据与干预数据:一种经常假设但很少严格获得的极端数据格式是观察IID数据,其中每个数据点都是从同一分布中独立采样的。手动工程数据与原始数据:在经典AI中,数据通常被假定为可结构化为高级且具有语义意义的变量,这些变量可能部分对应于底层图形的因果变量。因果模型和推理部分主要介绍了统计建模和因果建模的区别,并以形式化语言介绍了干预和分布变化。独立同分布的数据驱动方法对于独立同分布的数据,强普适一致性可以保证学习算法收敛到风险最低。这样的算法确实存在,例如最近邻分类器、支持向量机和神经网络。然而,当前的机器学习方法往往在不满足独立同分布假设的问题上表现不佳,这对人类来说很容易。Reichenbach'sPrinciple:FromStatisticstoCausationReichenbach[198]清楚地描述了因果关系和统计相关性之间的联系:X与Y重合的情况是一种特例。如果没有额外的假设,我们无法使用观察数据来区分这些情况。在这种情况下,因果模型比统计模型包含更多信息。当只有两个观察值时,因果结构发现很困难,但当观察值增加时会变得容易得多。原因是在这种情况下,因果结构传达了多个非平凡的条件独立性。它们概括了Reichenbach的原则,可以用因果图或结构因果模型的语言来描述,将概率图形模型与干预概念融合在一起。结构因果建模(SCM)SCM考虑一组观察值(或变量)X_1,...,X_n与有向无环图(DAG)的顶点相关联。该研究假设每个观察值都是根据以下公式得出的:观察值也是数学上的随机值。直观上,我们可以将独立噪声理解为在图中传播的“信息探针”(就像在社交网络中传播的八卦的独立元素)。这当然不仅仅是两个观察结果,因为任何非平凡的条件独立性陈述都需要至少三个变量。统计模型、因果图模型和SCM之间的差异下面的图1显示了统计模型和因果模型之间的差异。统计模型可以根据图形模型来定义,即带有图形的概率分布。如果图模型的边是因果的(在这种情况下,图是“因果图”),则图模型是因果的。结构因果模型由一组因果变量和一组基于噪声变量U_i分布的结构方程组成。独立因果机制独立性的概念包括两个方面:一个与影响有关,一个与信息有??关。在因果研究的整个历史中,不变的、自主的和独立的机制以多种形式出现。例如,Haavelmo[99]的早期工作假设改变其中一个结构分配会使其他结构保持不变;Hoover[111]引入了不变性准则:真正的因果顺序在适当的干预下是不变的;奥尔德里奇[4]探讨了这些思想在经济学中的历史发展;Pearl[183]??详细探讨了自主性,认为因果机制可以保持不变,而其他机制则受到外部影响。该研究将任意现实世界的分布视为因果机制的产物。这种分布的变化通常是由至少一种因果机制的变化引起的。基于ICM原理,研究人员得出以下假设:在ICM原理中,研究人员指出两种机制(形式化为条件分布)的独立性意味着两种条件分布不应相互影响。后者可以理解为需要独立干预。因果发现和机器学习根据SMS假设,许多因果结构被认为需要保持不变。因此,分布变化(例如在不同的“环境或上下文”中观察系统)可以极大地帮助确定因果结构。这些上下文可以来自干预、不稳定的时间序列或多个视图。同样,这些上下文可以解释为不同的任务,因此与元学习相关。传统的因果发现和推理假设单位是由因果图连接的随机变量。然而,现实世界的观察通常最初并没有被构造成这些单元,例如图像中的对象。因此,因果表示学习的出现试图从数据中学习这些变量,就像超越符号AI的机器学习不需要预先给定算法运行的符号一样。基于此,研究人员尝试将随机变量S_1,…,S_n与观测值联系起来,公式如下:其中G为非线性函数。下面的图2显示了一个示例,其中高维观察是查看因果系统状态的结果,然后使用神经网络对其进行处理以提取对各种任务有用的高级变量。为了结合结构因果建模和表示学习,我们应该努力将SCM嵌入到更大的机器学习模型中,这些模型的输入和输出可能看起来是高维和非结构化的,但其内部工作至少部分由SCM控制(可以使用参数化它一个神经网络)。研究人员在下面的图3中展示了一个可视化示例,其中适当因果变量的变化是稀疏的(移动手指会导致手指和块的位置发生变化),但在像素空间等其他表示中却很密集(手指和方块的移动导致许多像素值发生变化)。研究人员从因果表征学习的角度讨论了现代机器学习面临的三个问题,即解耦表征学习、可迁移机制学习以及介入式世界模型和推理学习。因果推理对机器学习的影响上述所有讨论都需要一种不依赖于通用独立同分布的学习范式。假设。研究人员希望做一个弱假设:应用模型的数据可能来自不同的分布,但所涉及的因果机制(大部分)是相同的。半监督学习(SSL)假设latentcausalgraph为X→Y,同时想学习映射X→Y,本例的因果分解如下:从SSL的角度,后续发展包括进一步的理论分析和条件SSL。将SSL视为利用边际P(X)和非因果条件P(Y|X)之间的依赖关系与证明SSL合理的常见假设是一致的。此外,SSL领域的一些理论结果在因果图中使用了众所周知的假设(即使这些假设没有提及因果关系):协同训练理论陈述了未标记数据的可学习性,并且相关预测变量是基于给定标签的条件独立假设.我们通常期望预测变量(仅)由给定标签引起,即反因果设置。对抗脆弱性假设现在我们处于一个因果环境中,其中一个因果生成模型可以分解为独立的组件,其中一个(本质上)是一个分类函数。因此,我们可能会期望,如果预测器近似于一种内在可转移且稳健的因果机制,那么对抗性示例应该更难找到。最近的工作支持这样一种观点,即一种潜在的攻击防御措施通过对因果生成方向进行建模来解决反因果分类问题,这种方法在视觉领域被称为综合分析。鲁棒性和强泛化能力为了学习一个鲁棒的预测器,我们应该有一个环境分布的子集并求解。如果观察到的环境集ε与可能的环境集P_ɡ不一致,我们将得到一个额外的估计误差,在最坏的情况下可以任意大。(18)最小-最大优化问题的预训练、数据增强和自监督学习预测模型是困难的。该研究将机器学习中的几种常见技术解释为近似方法(18)。第一种方法是丰富训练集的分布;第二种方法通常与前一种方法结合使用,后者依靠数据扩充来增加数据多样性;第三种方法依赖于自我监督学习P(X)。一个有趣的研究方向是结合所有这些技术,即基于来自多个模拟环境的数据的大规模训练、数据增强、自我监督和鲁棒微调。强化学习强化学习(RL)比机器学习中的主流研究更接近因果研究,因为它有时可以直接有效地估计执行概率。然而,在离策略学习设置中,尤其是批处理(或观察)设置中,因果关系问题变得微妙。应用于强化学习的因果学习可以分为两个方面:因果归纳和因果推理。强化学习环境中因果归纳的挑战与经典因果学习环境中的挑战完全不同,因为因果变量通常是给定的。然而,越来越多的证据表明适当环境的结构化表示的有效性。例如:世界模型;泛化、鲁棒性和快速迁移;反事实;离线RL科学应用当机器学习应用于自然科学时,一个基本问题是:我们可以在多大程度上与机器学习相辅相成?对物理系统的理解。一个有趣的方向是使用神经网络进行物理模拟,这比手工设计的模拟器要高效得多。另一方面,缺乏系统的实验条件可能会在医学和其他应用领域遇到挑战。因果关系在帮助理解医学现象方面具有巨大的潜力。在COVID-19大流行期间,在查看辛普森悖论的教科书示例时,因果中介分析有助于实际检测不同因素对病死率的影响。另一个科学应用的例子是天文学,研究人员使用因果模型来识别系外行星,尽管仪器存在混淆。多任务学习和持续学习多任务学习是指构建一个系统,可以在不同的环境中解决多个任务。这些任务通常具有一些共同特征。通过学习跨任务的相似性,系统可以在遇到新任务时更有效地利用从先前任务中获得的知识。我们在这方面显然已经走了很长一段路,但没有明确地将多任务处理问题视为因果问题。在海量数据和计算能力的驱动下,人工智能在广泛的应用领域取得了令人瞩目的进展。这也引出了一个问题:“为什么我们不能只训练一个巨大的模型来学习环境动态(例如强化学习中的设置)以包括所有可能的干预措施?”毕竟,分布式表示可以被广泛使用。标准化为看不见的样本,如果对大量干预进行训练,我们最终可能会得到一个大型神经网络,该网络可以很好地概括大量干预。要做到这一点,首先,如果数据不够多样化,由于看不见的分布变化导致的最坏情况错误仍然很高。此外,如果我们有一个模型可以成功地响应特定环境中的所有干预措施,我们可能希望在具有相似动态但不一定相同动态的不同环境中使用它。本质上,i.i.d.模式识别只是一种数学抽象,因果关系对于大多数形式的动态学习来说可能是必不可少的。虽然到目前为止机器学习忽略了因果关系的完全整合,但这项研究认为机器学习将从整合因果概念中受益。研究人员认为,将当前的深度学习方法与因果关系的工具和思想相结合可能是通向通用人工智能系统的必由之路。
