图灵奖获得者JudeaPearl:不要仅仅依靠数据视觉和自然语言处理等重要任务取得了突破性进展。尽管如此,研究人员一直在思考此类方法的缺点和其他方法的重要价值。近日,图灵奖获得者、著名计算机科学家、哲学家JudeaPearl发表了一篇短文,从便利性、透明性和可解释性等角度谈了他对激进经验主义和机器学习研究的思考。论文链接:https://ftp.cs.ucla.edu/pub/stat_ser/r502.pdf在这篇论文中,JudeaPearl将对数据科学的便利性、透明度和可解释性三个维度进行比较“数据拟合”(datafitting)和“数据解释(datainterpreting)”方法。对“数据拟合”方法的信仰源于研究者认为理性决策隐藏在数据本身中的信念。相比之下,数据解释学派并不将数据视为知识的唯一来源,但作为解释现实的辅助手段——这里的“现实”指的是数据的生成过程。本文将在因果逻辑的指导下,从任务的角度探讨拟合与解释的共生关系,以恢复数据科学的平衡。模拟进化和数据科学我最近参加了一个讲座,演讲者这样总结机器学习的哲学:“所有知识都来自观察数据,一些直接有些来自感官体验,有些则通过文化或遗传传递给我们间接体验。”听众会发现这样的陈述是不言而喻的,它为如何通过检查数据中的条件概率模式来分析“知识”的本质奠定了基调。自然地,它不涉及诸如“外部世界”、“理论”、“数据生成过程”、“因果关系”、“能动性”和“思维构造”等概念,因为从表面上看,这些概念必要时也可以使用。可以在资料中查到。换句话说,人类在解释数据时使用的任何概念,例如文化、科学或遗传起源概念,都可以追溯到并可以从赋予这些概念存在的最初感官体验中推导出来。再次衍生。从人工智能的角度来看,这种以数据为中心的哲学为机器学习研究提供了一个有吸引力(如果不是诱人)的前景:为了开发人类水平的智能机器,我们应该只遵循我们祖先的原则。获得智能的方法是在数字机器上同时模拟基因进化和文化进化,使用我们可能收集到的所有数据作为输入。在极端情况下,这样的前景可能会激发一个相当未来主义和雄心勃勃的场景:从一个类似于原始生物体(例如变形虫)的简单神经网络开始,让它与环境相互作用,变异并产生后代,给它足够的时间,最终可以达到爱因斯坦级别的智能。事实上,除了神圣的经文和神圣的启示,爱因斯坦本可以从其他地方了解到他的知识、才华和智慧是从哪里获得的?在询问这样的前景有多现实之前,让我们先看一下讨论前的两个观察:1.模拟进化,无论其具体形式如何,实际上都在引领当前大多数机器学习研究的主导范式,尤其是那些涉及联结主义的范式,深度学习和神经网络技术。这些技术可以部署无模型、基于统计的学习策略。这些策略在计算机视觉、语音识别和自动驾驶汽车等应用中取得了令人瞩目的成功。这些成功激发了人们对这些策略的充分性和无限潜力的希望,同时削弱了人们对基于模型的方法的兴趣。2、以数据为中心的发展方向的思想基础深深扎根于西方哲学的经验主义分支。这一哲学分支认为,感官体验是我们所有概念和知识的最终来源,而“先天观念”和“理性”作为知识来源的作用很小或根本没有。经验主义思想可以追溯到亚里士多德的古代著作,但它是英国经验主义哲学家弗朗西斯·培根、约翰·洛克、乔治·伯克利和大卫·休谟,以及较晚的哲学作家查尔斯·桑德斯·皮尔士和威廉·詹姆斯。事实上,现代联结主义被视为激进经验主义对理性主义的胜利。事实上,在数字机器上模拟知识获取过程的能力提供了一个非常灵活的测试平台,可以通过在数字机器上进行实验来评估关于经验主义和先天性之间平衡的理论。尽管检验哲学理论有好处,但我对遵循激进的机器学习研究实证议程的想法持三大保留意见。我将提出三个论点,说明为什么经验主义应该与基于模型的科学的原则相平衡。然而,对于基于模型的科学,学习过程由两个信息来源指导:(a)数据,和(b)人工设计的数据生成模型。我将这三个论点标记为:(1)便利性,(2)透明度,(3)可解释性。它们在下面一一讨论:便利进化是一个太慢的过程,因为大多数突变是无用的甚至有害的,并且等待自然选择从无用突变中区分和过滤有用的突变通常成本高得令人望而却步。大量的机器学习任务需要对稀疏的新数据进行快速解释和快速响应,这些稀疏的新数据过于稀疏而无法通过随机变异进行过滤。COVID-19爆发就是一个很好的例子:来自不可靠和多样化来源的稀疏数据需要快速解释和快速行动,主要基于以前的流行病传播和数据生成模型。总体而言,机器学习技术有望利用现有的大量科学知识,结合可收集的数据,解决健康、教育、生态和经济等领域的关键社会问题。更重要的是,科学知识可以通过主动指导数据和数据源的选择或过滤过程来加快进化速度。在选择使用哪些数据或运行哪些实验之前,有必要从理论上和假设上考虑每个选择将实现什么以及它们在未来提高性能的可能性有多大。例如,为了提供这样的预期,可以使用因果模型来预测假设操作的结果以及根据实际情况撤销过去事件的后果。透明度为了使世界知识最终可用(即使它是从原始数据自发演变而来的),它必须以某种机器形式进行编译和表示。编译知识的目的是将发现过程分摊到许多推理任务上,这样就不需要重复这个过程。然后,编译后的表示有助于有效地得出许多可选决策问题的答案,包括有关如何收集额外数据的问题。有些表示允许这样的推理,有些则不允许。《为什么:关于因果关系的新科学》中提出的因果层次结构正式定义了回答有关假设干预和/或解释和反事实的问题所需的知识内容类型。知识汇编涉及抽象和重新格式化。前者允许信息丢失(如图像模型泛化为数值方程的情况),而后者保留信息内容,但将一些信息从隐式表示转移到显式表示。举一个经典的例子:信号波形的频谱表示。从信息的角度来看,前者等同于后者,但频谱明确表示信号的特定方面。这些考虑要求我们研究编译表示的数学属性、它们的内在局限性、它们支持的推理类型以及它们在获得预期答案方面的有效性。更具体地说,机器学习研究人员还应该参与现在所谓的“因果建模”,并使用因果科学的工具和原理来指导数据探索和数据解释过程。可解释性无论因果知识是如何积累、发现或存储的,知识驱动的推理都会传递给人类用户并使之受益。今天,这些用途包括政策评估、个人决策、生成解释、分配功劳或广泛了解我们周围的世界。因此,所有的推理都必须用一种与人们自己组织他们对世界的知识的方式相匹配的语言来描述,即因果语言。因此,无论机器学习研究人员采用何种方法进行数据拟合,他们都必须精通这种用户友好的语言、它的句法、它的一般规则,以及人们解释或误解机器学习算法发现的特征的方式。结论将人类知识的内容与其感官数据的来源等同起来是错误的。知识存储在头脑(或计算机)中的格式和(尤其是)其隐含和显性成分的平衡对于表征知识与其内容或来源一样重要。虽然激进的经验主义可能是进化过程的有效模型,但它不是机器学习研究的糟糕策略。它催生了目前主导统计和机器学习文化的以数据为中心的精神。这种思想流派认为,理性决策的秘诀在于数据本身。“数据拟合”和“数据解释”的平衡混合策略可以更好地让我们掌握进化过程所需的知识汇编的各个阶段。
