当你看到棒球运动员击球时,你可以推断出不同元素之间的因果关系:例如,在看到球棒和棒球运动员的手臂同步运动后,您可以看出玩家的手臂导致球棒移动,而不是球棒的移动导致玩家的手臂移动。此外,您不需要被告知知道球棒导致球的方向突然改变。这些推论是我们人类的直觉,我们从很小的时候就有了——没有人明确地指导这件事,只是通过观察世界。但对于在围棋和国际象棋等复杂任务中成功超越人类的机器学习算法来说,因果推理仍然是一个巨大的挑战。机器学习算法,尤其是深度神经网络,特别擅长在大量数据中发现细微的模式、实时转录音频、每秒注释数千张图像和视频帧,以及检查癌症模型的X射线和MRI扫描.然而,他们很难做出简单的因果推断,就像刚才提到的棒球例子一样。在一篇题为“迈向因果表征学习”的文章中,来自马克斯普朗克研究所智能系统研究组、蒙特利尔研究所算法学习部和GoogleRsearch的研究人员讨论了一系列因果表征学习方法。问题——他们研究了机器学习模型中因果表示的缺乏所带来的挑战,并为创建可以学习因果表示的人工智能系统提供了灵感和方向。这项工作可能是突破机器学习因果表示领域的一些主要挑战的关键。为什么机器学习受限?事实证明这是一个普遍的假设“责怪”为什么机器学习不能超越它的狭窄领域并受到训练数据的限制?针对这个问题,在这篇论文中,作者表示:“机器学习往往会忽略动物大量使用的信息:比如对世界的干预、域转移、时间结构等。一般来说,我们‘讨厌’这些因素,并尝试设计出来。“与此一致,目前机器学习的大部分成功都是由于对适当收集的独立同分布(i.i.d.)数据进行大规模模式识别。”这里我们需要简要介绍一个常见的机器学习术语:术语“i.i.d.”基本上假设问题空间中的随机观察相互独立并且具有恒定的发生概率——一个简单的例子是掷硬币或掷骰子。当涉及到计算机视觉等更复杂的领域时,机器学习工程师试图将问题转化为独立同分布。通过在非常大的样本集上训练模型。这背后的假设是,给定足够的示例,机器学习模型可以将问题的一般分布编码为其参数。但在现实世界中,由于训练数据中无法解释和控制的因素,这种分布往往会发生变化——例如,即使是训练了数百万的卷积神经网络,当从略微不同的角度“看到”物体时也可能会失败角度或新背景。训练集中的对象与现实生活中的对象。解决这些问题的努力主要涉及在大量示例上训练机器学习模型。然而,随着环境变得越来越复杂,通过添加更多训练实例来覆盖整个分布的可能性变得越来越小。这在人工智能必须与世界互动的领域变得更加明显,例如机器人和自动驾驶汽车。缺乏对因果关系的理解导致难以做出预测和应对新情况——这就是为什么你看到自动驾驶汽车已经训练了数百万英里,但仍然出现奇怪和危险错误的原因。研究人员写道:“要很好地推广到独立同分布环境之外的对象,不仅需要学习变量之间的统计关联,还需要一个潜在的因果模型。”因果模型还允许人们将以前获得的知识应用到新领域。例如,当您学习了《魔兽争霸》这样的即时战略游戏后,您可以快速将所学知识应用到其他类似游戏《星际争霸》和《帝国时代》中。然而,机器学习算法的迁移学习仅限于非常肤浅的用途:例如微调图像分类器以检测新类型的对象。在更复杂的任务中,例如学习视频游戏,机器学习模型需要大量训练(玩了数千年)并且对环境中的微小变化(例如,打开新地图或规则中的微小变化)反应不佳。“在学习因果模型时,我们应该需要更少的例子来适应大多数知识,比如创建一个模块,这样模型就可以在没有进一步训练的情况下被重用。”克服外界干扰,各种条件下的因果关系学习还是一个“稳定的batch”有这些已知的弱点,但仍然是机器学习的主导形式?这是因为纯粹基于观察的方法是可扩展的:我们可以通过添加更多的训练数据来不断提高准确性,我们还可以通过添加更多的计算能力来加快训练过程。事实上,深度学习最近取得成功的一个关键因素是更多可用数据以及更强大的处理器。此外,基于独立同分布的模型。易于评估:首先,我们获取一个大数据集,将其分为训练集和测试集,然后在训练数据上调整模型并通过测量其在测试集上的性能预测准确性来验证它,然后继续训练直到达到所需的精度。目前,有许多公共数据集提供此类基准,例如ImageNet、CIFAR-10和MNIST。此外,任务特定的数据集,如COVID-19诊断的covid-x数据集和威斯康星州乳腺癌诊断数据集。在所有情况下,挑战都是相同的——开发一种可以根据统计规律预测结果的机器学习模型。然而,正如该论文的作者所观察到的,精确的预测往往不足以为决策提供信息。例如,在冠状病毒大流行期间,许多机器学习系统开始出现故障,因为它们接受的是统计规律而非因果关系训练。随着生活模式的改变,模型的准确性会下降。当外部干预改变了问题的统计分布时,因果模型仍然稳健。例如,当你第一次看到一个物体时,你的大脑会下意识地从它的外表中排除光线,这就是为什么我们在新的光照条件下看到一个物体时能够认出它。此外,因果模型使我们能够对以前从未见过的情况做出反应,并思考反事实:我们不需要开车冲下悬崖就能知道会发生什么。反事实在减少机器学习模型所需的训练示例数量方面发挥着重要作用。在处理对抗性攻击时,因果关系也是关键——如果你添加一些微小的变化,机器学习系统可能会以意想不到的方式失败。“这些攻击显然违反了统计机器学习的独立同分布假设,”该论文的作者写道。此外,作者补充说,对抗性漏洞表明人类智能和机器学习算法的鲁棒性机制存在差异。研究人员指出,因果模型可能是抵御对抗性攻击的一种可能方法。对抗性攻击针对机器学习对先验知识的敏感性。在这张图中,如果加入一层难以察觉的噪声,卷积神经网络就会误判它的长臂猿。从广义上讲,因果关系可以解决机器学习中泛化能力不足的问题。“可以公平地说,大多数当前实践(解决i.i.d.基准问题)和大多数理论结果(关于i.i.d.设置中的泛化)未能解决交叉问题泛化的严峻挑战,”研究人员写道。“将因果关系添加到机器学习模型的未来会怎样?”在本文中,研究人员还汇集了对创建因果机器学习模型至关重要的概念和原则。其中两个概念包括“结构因果模型”和“独立因果模型”。总的来说,该原则表明人工智能系统应该能够识别因果变量并隔离它们对环境的影响,而不是寻找表面的统计相关性。这种机制允许模型检测不同的对象,而不受视角、背景、光照和其他噪声等因素的影响。理清这些因果变量将使人工智能系统对不可预测的变化和外部干预更加稳健。因此,因果AI模型不需要庞大的训练数据集。“一旦因果模型可用,无论是通过外部人类知识还是学习过程,因果推理都可以让(它)得出关于干预、反事实和潜在结果的结论,”该论文的作者说。此外,作者探讨了如何将这些概念应用于机器学习的不同分支,包括强化学习——对于智能代理严重依赖探索环境和通过反复试验发现解决方案的问题至关重要。因果结构可以帮助强化学习训练更有效,因为它允许代理从训练一开始就做出明智的决定,而不是采取随机和非理性的行动。结合机器学习机制和结构因果模型,研究人员为人工智能系统提供了思路:“结合结构因果建模和表示学习,我们应该努力将SCM嵌入到更大的机器学习模型中,这些模型的输入和输出可能是高维非结构化的,但SCM至少可以操作其中的一些内部系统。结果可能是一个模块化的架构,不同的模块可以单独调整并用于新的任务。”这些概念拉近了我们的距离。人类思维在大脑的不同区域和区域之间连接和重用知识和技能。然而,值得注意的是,本文提出的想法是概念性的。但有趣的是,研究人员从一个该领域的许多平行工作。本文中引用了JudeaPearl所做的工作,JudeaPearl是一位因果推理方面的工作而获得图灵奖的科学家。Pearl是纯粹深度学习方法的直言不讳的批评者。同时,YoshuaBengio,一位该论文的合著者之一,另一位图灵奖获得者,是深度学习的先驱之一。该论文还包含一些类似于GaryMarcus的混合AI模型的想法,该模型结合了符号系统的推理能力和神经网络的模式识别能力.虽然目前尚不清楚这几种方法中的哪一种将有助于解决机器学习中的因果关系问题,但将不同思想流派的观点汇集在一起??肯定会产生有趣的结果。“在其核心,i.i.d.模式识别只是一种数学抽象,而因果关系对于大多数形式的生活学习来说可能是必不可少的,”作者写道。“虽然到目前为止机器学习忽略了因果关系的完全整合,但本文认为整合因果概念确实有利于机器学习。”
