当前位置: 首页 > 科技观察

AI的哲学思考——认知不变性和AI

时间:2023-03-19 15:51:44 科技观察

美国DARPA(美国国防高级研究计划局)曾提出第三次AI浪潮的概念。在其讨论中,第三次AI浪潮的一个重要组成部分就是实现通用人工智能。也就是说,目前的人工智能更多的还是依赖于统计信息。当传入模型的数据分布发生变化(任务变化)时,很难达到预期的效果。在传统AI中,大部分AI算法都急于寻找对应的生物基础,虽然很多人质疑这种对应的必要性,就像飞机的发明一样,其实飞机的飞行方式与鸟类类似是非常不同,但在发现更好的算法之前,向人脑学习可能是更好的选择。既然要向人脑学习,那么人类探索世界的过程可以成为人工智能最好的老师,而哲学是人类探索世界最神秘、最坚实的基础。许多学者也开始关注哲学。除了“基础”,他们也开始尝试将哲学思想融入到AI算法中。因此,本文也选择了一个视角,从科学认知的不变性(HardToVary,HTV)出发,然后介绍HTV存在的必要性以及如何建立在内部可变性(internalvariability)和外部可变性(externalvariability)来衡量和实现AI中的这种不变性,最后介绍几个刚刚提出的实现认知不变性的具体标准。什么是科学认知不变性(HTV)图1:DavidDeutsch在他的TED演讲中提出了HTV的必要性[4]简单来说,科学认知不变性就是我们提出的理论不应该被轻易改变。以下是Wiki对HTV的比较完整的定义:理论家应该寻求难以改变的解释。通过这种表达方式,作者的意图是说,一个难以改变的解释提供了紧密结合在一起的具体细节,以至于不可能在不影响整个理论的情况下改变任何细节。(如果学者要确定一个理论,那么这个理论最好是不变的(hardtobeshaking,即hardtovary)。这样的理论应该是这样的:所有的细节都清楚并且密切相关,如果你想要推导出这个理论的结果,只有一条路可以走。以这种方式(这个理论)替换任何细节都会使这个理论不再有效。)[5]基于这个观点,神话是一个极端消极的人类感知世界的例子(至少现在是这样)。例如,在古希腊神话中。这个季节是这样来的:冥界之神哈迪斯绑架了春天之神珀耳塞福涅,并强迫她结婚。哈迪斯婚后放了春神,但要她定期回来。所以令人惊奇的是,她每年都真的要被逼回冥界。而她的母亲,大地女神得墨忒耳,伤心欲绝,让大地变得寒冷贫瘠,这就成了人间的冬天。先不说这有没有什么不变性,就说它的内在逻辑,如果冬天是得墨忒耳的悲伤造成的,那么地球上的每一处地方都一定是同时发生的。因此,如果古希腊人知道澳大利亚在德墨忒尔最悲伤的时候最热……他们就会知道他们的理论是错误的。除了事实给这个故事带来的矛盾之外,对四季的解释也可以用其他各种故事来代替。比如在新的故事中,将春之神逼回去的原因并不是婚约,而是为了报复,因为这里帕瑟芬妮没有被放出来,而是她逃了出来。从那以后,每年春天,她都会用她的泉水力量为哈迪斯报仇——她用春天的空气冷却他的领地,春天的空气散发到地面,创造了我们的夏天。这解释了与原神话相同的现象,也符合现实。然而,它对现实的断言在许多方面恰恰相反。这是可能的,因为原始神话的细节与季节无关,除了通过神话本身。如果上面的故事太长难以理解,那么让我举一个更简洁的例子。在过去的神话中,雨水由龙王掌管,雷电母掌管雷电。这种故事很容易改变。只要换人,比如把雷公换成雷神,也能达到一模一样的效果,只是内部解读完全不同,分别代表中国古代神话和漫威。这就是提出HTV的原因。如果当今科学的内在逻辑能像这种故事一样被轻易篡改,然后达到一模一样的结果,那才可怕。这也解释了为什么目前AI的AI黑盒模型很难被AI从业者以外的人所信任。那么,为了实现不变性,这些神话中缺少了什么?回到最初对季节的解释,其中缺少的一个关键因素是理论内部演绎逻辑所施加的限制。现代科学对季节的解释就是一个很好的例子,因为它涉及一系列紧密的太阳光线和地轴倾斜的几何推导。虽然它也有一些自由的参数,比如倾角等,但大多数的解释都是从无法改变的几何推论中得出的。当然,这种约束存在的前提是我们要构建的知识的一致性。HTV能做什么AI行业实际上正在蓬勃发展,几家公司已经推出了全自动驾驶汽车,谷歌的Duplex系统以其能够进行自然语言对话的能力赢得了很多观众。最近的GPT3模型已被证明能够编写非常有说服力的故事,甚至可以在测试期间执行语料库之外的任务(论文的零样本学习部分)。但是,还有很多事情是AI做不到的。今天的人工智能系统缺乏人类水平的常识理解,在机器人操纵物体方面笨拙,并且不擅长任意推理。另一个问题是,今天的人工智能无法像人类一样从少量的例子中学习,需要大量的数据来训练。然而,最重要的是,今天的人工智能系统非常狭窄,也就是DARPA所说的NarrowAI——它们只能在训练数据分布范围内执行它们被训练要完成的任务。每当今天的人工智能系统被要求在训练数据分布之外工作时,它们通常都会失败。也就是说,现在的AI更注重归纳的结果。但矛盾就在这里。如果人工智能真的要向人脑学习,学者们将很难绕过波普里安提出的认识论。在这种认识论中,他反对归纳法,认为归纳法对于科学知识的增长和发展不是必需的。现在的很多机器学习甚至很多科学研究其实本质上都等同于贝叶斯归纳法,而现在流行的观点是所有的人工智能系统都是近似所罗门诺夫归纳法(Solomonoffinduction)。正如某个辩论节目所说,哲学更多的是证伪而不是证实。而AI正在为几乎不可能的“证明”而努力。简而言之,人工智能希望能够生成理论,而且这些理论是完全准确的。但这显然是不可能的。在波普尔看来,理论从来都是解决问题的“大胆猜想”,而不是直接从经验中吸取教训。比如,星星其实就是太阳,只不过它们离我们比太阳还远。这是公元前450年阿那克萨哥拉斯(Anaxagoras)首先提出的大胆猜想。尽管人工智能研究人员对这种猜测是如何产生的非常感兴趣,但波普尔并不那么关心如何产生猜测。相反,他认为这是心理学家需要回答的问题。毕竟,一个猜想的真实性与它的起源无关。虽然经验可以而且确实告诉我们哪些猜想应该保留,哪些应该放弃,尤其是以经验检验的形式,但在波普尔看来,经验总是带有理论色彩。换句话说,不可能像弗朗西斯·培根所说的那样,以完全客观的方式去观察。对波普尔来说,理论或观察先到先得的问题很像先有鸡还是先有蛋的问题。科学理论是建立在观察的基础上的,但这些观察在某种程度上是由以前的科学理论提供的,以至于我们甚至可以来回追溯史前科学的神话。因此,虽然理论的实证检验在证明某些理论错误同时保留其他理论方面发挥着作用,但波普尔认为,从根本上说,所有理论都“来自内部”,而不是来自外部印象。如果可证伪性是一个理论是否科学的关键,那么一个基于神话的理论,对神、魔、鬼的行为做出可证伪的预测,是否应该被认为是科学的?波普尔通过他的“可证伪度”概念,部分解决了将这些明显不科学的理论从科学领域移除的任务,但这一原则的有效性仍不清楚。因此,HTV的存在是有理由的,因为它似乎可以作为区分科学理论和非科学理论的替代标准。相应的,既然AI宣称自己的模型要变得智能,那么HTV也可以用来证明AI模型输出的有效性。AI和HTV的关系一般来说,HTV可以这样解释:对应一个特定的理论,存在多少等价的解释。例如,在机器学习的背景下,HTV原理可以分别应用于各种类型的模型架构,每个模型架构都有固定数量的参数。具有更多参数的模型能够表达更大类的函数,因此更容易受到变化的影响。从表面上看,HTV原理似乎与经典统计中bias-variancetrade-off的一个方面有关,即参数过多的模型更容易过拟合其训练数据,从而导致泛化能力下降测试数据很差。然而,回想一下,我们感兴趣的是外推(分布外的模型能力),而不是训练分布内的经典泛化。偏差-方差权衡仅用于分布的泛化,因此与HTV原则在很大程度上无关。在机器学习中,随着更多参数被添加到模型中,偏差方差权衡已被证明是失败的——例如超过一定阈值,导致“双下降”曲线的出现[6]。所以现在,更多的参数总是有帮助的,而不是有害的。因此,偏差方差权衡本身的存在变得值得怀疑。如何区分应用偏差-方差权衡的模型和不应用偏差-方差权衡的模型仍然是一个正在进行的研究领域。同时,过拟合的问题往往可以用更大的数据集来弥补。因此,大型模型本身并不坏,具体取决于可用数据量。因此,其实HTV似乎更接近于奥卡姆剃刀(Occam'srazor)的原理。简单的说,这个原则表达的就是模型(参数)越简单越好,简单模型能完成的事情不需要用复杂的东西来完成。Kolmogorov复杂度可以很好地衡量这一原则(如何将其应用到AI中将在后面讨论)。字符串s的描述d(s)称为s的最小描述,如果它具有最小长度(即使用最小位数),并且d(s)的长度(即字符串中的位数最小描述)是s的Kolmogorov复杂度,记为K(s)。而最短描述的长度取决于描述语言的选择;但是改变语言的效果是有限的(这个结果被称为不变性定理)。在AI中,这种简单性可以通过两种方式来衡量:一种是使用所有现有的解释框架,或者看训练模型的复杂程度。Hochreiter和Schmidhuber发现,在参数空间的损失函数表面具有平坦最小值的深度学习模型更容易泛化。这很好解释,平坦的最小值表明模型具有较低的复杂性(并且更容易压缩)。然而,最近发现了一些反例,证明损失函数曲率较小的深度学习模型更具有泛化性。如果结合Popper的论点,即曲率较低的函数比曲率较高的函数“更简单”等,来证明简单性是错误的,Popper认为按简单性对函数排序的做法是不合时宜的。审美或实际考虑,但没有很好地建立在任何深刻的认知原则之上。衡量简单性的另一种方法是查看模型中自由参数的数量。这一措施似乎更符合多伊奇的可变性概念。具有更多自由参数(或奥卡姆语言中的“实体”)的模型更具可变性,因为可以轻松调整参数以适应不同的数据。Deutsch反驳了这一点——实体越少的模型变化越小,他说:“有许多简单的解释是高度可变的,比如‘Demeter做到了’。”看起来Deutsch正在研究的是理论上的各种约束,包括内部和外部的,以及参数的微小变化改变模型预测的程度。FranOcoisChollet认为奥卡姆剃刀原理与推理相反。例如,如果模型是在训练数据上取得良好性能的最简单方法,则不太可能在新情况下取得良好结果。Chollet认为模型应该包含“外部”信息以便能够进行推理。如何衡量AI模型的HTV属性要衡量AI模型的HTV属性,首先要明确AI模型中HTV属性的表现形式是什么。深度学习在业界应用的一个普遍问题是极不稳定。例如,在图像识别领域,光照条件、图像分辨率、图像呈现等,都可能成为深度学习模型的障碍。另一个著名的例子是DeepMind为电脑游戏《星际争霸》开发的AlphaStar系统。对于给定的地图和角色,模型可以轻松击败人类,但这种能力不能泛化到其他角色和地图,必须单独重新训练。这些问题都向我们表明,AI模型很难完成训练数据分布之外的任务,即很难完成与训练时条件不同的任务。而HTV指导我们一个好的模型应该在一个新的场景中以最低的代价最大程度的完成新的任务。因此,对应于经过训练的模型,[1]中定义了两个概念:内部可变性:模型/理论可以在内部发生变化同时仍产生相同预测的程度。显然,越小越好,如果以上面的神话为例,神话内部的灵活性显然是很大的;外部灵活性(externalvariability):模型必须改变多少才能适应新数据。显然,条件是越小越好,也就是说以最低的代价完成新的任务。对应这两个属性,如果能够很好地衡量这两个属性在AI模型中的实现程度,那么就可以更好地实现所谓的通用人工智能(AGI)。本节余下部分将分别介绍这两个属性在人工智能中分别对应什么,以及衡量这些属性的一些概念性方法。内部灵活性内部灵活性定义为模型/理论可以在内部进行更改同时仍产生相同预测的程度。考虑一个基于输入变量x预测输出y的常见问题。科学家们首先介绍有关现有系统的先验知识,并且通常是先验已知的科学定律。然后,使用这些先验知识,他们推导出或猜测这种关系的函数形式,将其与数据相匹配,并查看其效果如何。重要的是函数要保持相对简单,这样它仍然可以理解——除了准确的预测之外,还隐含了理解的需要。相比之下,在机器学习中,从业者只关心预测的准确性,因此大黑盒函数是可以接受的。LeoBrieman指出,在处理神经网络等大型多参数函数时会出现一个奇怪的事实——大量模型在任何数据集{x,y}[8]上可能具有相同的误差(损失)。就像在任何实际应用程序中一样,只要数据嘈杂,就会出现这种情况。他称之为罗生门效应,这是一部日本电影中的一个事件,其中四个人每人见证一个人的死亡。在法庭上,他们都报告说看到了相同的事实,但他们对所发生的事情有截然不同的解释。这种有趣的现象也可以在神经网络中找到——用不同的随机初始化训练的深度神经网络可以达到相同的精度,但内部工作方式不同(例如,使用不同的特征),这是一种被低估的现象。了解事实。测量深度学习模型的罗生门集的大小相当于确定等效最小值的数量。这是一个水平集问题,据我们所知,这方面的研究还不多,也没有简单的方法来计算这个集的大小。Externalflexibility那么如何实现分布外的预测能力,模型需要更勇于向外推理,也就是外推。为了衡量外部中断的能力,还有外部灵活性的概念。为了衡量外在灵活性,我们可以再次假设我们正在对一个简单函数y=f(x)建模并尝试将其拟合到数据集{(x,y)}。为了测量外在可变性,我们想凭直觉知道我们需要改变多少f(x)才能使模型适应数据集中的变化。我们可以通过考虑两种不同的预测模型来进一步理解这一点——k最近邻模型和基于物理学的模拟,以计算核心坍缩超新星的最大压力与其质量的函数关系。第一个模型可以灵活地适应任何函数y=f(x),而第二个模型是为特定用途量身定做的。高度灵活模型的另一个例子是基于优化器的神经网络(要对给定的数据集进行预测,神经网络必须首先在数据上进行拟合)。为了进行量化,我们必须有一种方法来量化模型在适应新数据集时的变化。算法信息论可以帮助解决这两个问题。给定图灵机和数据集D1,D1中的算法信息(也称为Kolmogorov复杂度)是用我们选择的特定图灵机复制D1的最短程序的位串s1的长度。写下H(D1)=长度(s1)。现在假设我们有一个在不同数据集DAI上训练的AI算法sAI,我们希望衡量它需要改变多少才能在D2上以最佳方式工作。s1和sAI的相关算法信息,记为H(s1|sAI),是给定sAI复制s1的最短变化算法的长度。因此,它衡量了使sAI在D2上以最佳方式工作所需的变化量。不幸的是,无法计算这种复杂性。然而,我们可以利用这种复杂性近似,而不是试图找到一个最优程序来复制D2。我们指定一个精度裕度(枚举尽可能多的可能性),然后在我们指定的范围内,找到重现D2所需的sAI长度的最小变化。请注意,我们不关心sAI有多大,只关心它需要改变多少以适应新的数据DAI。因此,这种“HTV”性概念不同于“奥卡姆剃刀”。我们还没有具体说明如何设置DAI(AI设计的初始数据集)和D2。显然,这些数据集不能随机生成。没有免费的午餐定理指出,当对每个可能的问题进行平均时,所有算法都是等价的。因此,当尝试从一个随机选择的数据集外推到另一个时,所有算法都将处于平等地位。我们所处的情况与Chollet试图严格定义智能时所面临的情况非常相似。Chollet的解决方案是将问题空间限制为人类可以解决的一组问题。Cholie指出,自然世界符合一组非常基本的先验,例如客观性(不同物体的存在)、基础物理学、主观性(有目的的主体的存在)、数字和算术、基本几何学和拓扑学。我们还可以断言,D1和D2的生成必须遵守一组先验规则。或者更简单地说,我们可以说D1和D2是由物理现象产生的。这充分限制了问题/数据空间,使外推可行。HowtomakethemodellearnHTVSolution论文地址:https://arxiv.org/pdf/2009.00329.pdf代码:https://github.com/gibipara92/learning-explanations-hard-to-vary前面讨论过很肤浅HTV和AI的关系,要让HTV真正对AI算法产生作用,还有很多细节需要确定,比如HTV具体能解决什么AI问题,怎么解决等等。LEARNINGEXPLANATIONSTHATAREHARDTOVARY给出了一个很好的尝试,首先明确定义了HTV在AI中可以帮助解决的问题(如图2所示):图2:HTV对应AI中的问题[7]这个问题简单来说就是当数据分布发生变化时,最优解可能发生变化,从而失去其不变性。为了验证这一点,作者特意生成了两组数据,然后按照传统的训练方法得到了不同初始化参数(白色圆圈)下的两个局部最优解(星号),但是当两组数据分别训练时此时由于生成数据的特殊性,两组数据的losssurface会在一条直线上达到最小值(左下图为竖线,右下图为横线),那么这条线上的所有点都是一个局部最优解,会产生很多局部最优解。这种情况下,基本上很难找到上图右上角的最优解,除非初始化参数刚好让他们得到(0.8,0.8)这个最优解(概率几乎为0,相当于1/*∞*)。在这个例子中,很明显下图左下角的解是符合HTV原理的,而其他的解是极易变化的,而当数据增加时,这些极易变化的解大部分都没有了更长的用处。作者还用了一个比较现实的例子来说明HTV在AI中需要达到什么效果(如图3所示):图3:HTV可以解决什么问题[7]图3展示了两种笔记,左边的那个注释在其他游戏上很难用(如果游戏大小改变就没用了),但是右边的注释还可以。例如,如果有第三个游戏记录,则该游戏记录的大小和比例与图3中的游戏记录完全不同。此时出现类似左图的场景,箭头很可能使一个失误。想象一个比图3大一倍的棋谱,箭头所指的位置可能刚好比原来少了一半格子,用符号描述的方法不存在这个问题。上面的例子也从侧面说明了HTV的重要性。图形注释很容易更改。如果箭头弯曲或更改游戏记录,则会导致问题。在用文字表达时,每一步的表达方式都是Definitely,更容易广泛推广到更多的棋谱。因此,作者希望找到与右边类似的笔记作为最优解。为了解决这个问题,作者提出了ANDmask,它不是maskinput,而是针对gradient的mask。作者首先将数据分成多个部分,每个部分被识别为一个环境中产生的数据(类似于正常训练时的batch)。在正常的训练中,我们会对每一个batch进行类似average的操作,这样就会导致如图4所示的问题。BatchA和BatchB的梯度方向完全不一致,但最终还是保留了它们的影响。图4:Inconsistency[7]为了确认要屏蔽哪些梯度,对于每个环境(batch)下得到的参数θ,作者使用了每个环境(下式中的e,即batch)的参数θ比较损失函数得到这个参数ILC(InvariantLearningConsistency,学习的一致性)。简单来说,就是只保留那些被更多数据识别的梯度方向。作者提到的几何平均数,也是为了表达这个意思。除了上面提到的具体解决方案(ANDmask)外,文章还概括了几种导致训练结果不能HTV的常见问题(部分已经实际解决):找不到最优解就停止训练。由于尚未找到最优解,更不用说HTV解了。梯度聚合法。如果在训练时独立(批量)学习信号,那么这些信号的聚合方法就非常重要,合理的聚合方法可以保证所有信息不丢失。正如上一篇文章(图4)所示,我们常用的平均值在很多情况下会丢失重要信息。例如,图4左侧的信息丢失了。如果更多的batches想往左走,但是数值很小,那么average还是往右走,但是更一般的解明显往左走。最后,作者在自己生成的数据上验证了自己的想法,也证实了自己的方法在CIFAR10上有一定的优势。虽然所有的实验比较都受到一定的限制,但是本文提出的想法,以及idea将HTV嵌入到AI中的方法值得学习。综上所述,对于HTV特性,如果未来能够将这一特性量化加入到模型的损失函数中,那么可以预见AGI将向人类更近一步。当然,本文的假设还是建立在如果AI的学习对象仍然是人脑的前提下,如果在AI的过程中能够找到一些与人脑功能无关的算法研究,但仍然有效,这不是一个坏主意。总而言之,为了实现DARPA所说的第三次AI浪潮甚至更高级的AI,我们需要发现更全面的loss来完成我们预期的任务。