当前位置: 首页 > 科技观察

专访StuartRussell:关于ChatGPT,更多的数据和更多的计算能力并不能带来真正的智能

时间:2023-03-13 15:04:27 科技观察

《人工智能:现代方法》(ArtificialIntelligence:AModernApproach)第四个中文版最近出来了,机器之心对作者进行了专访,StuartRussell教授接受了采访。作为人工智能领域的经典之作,《人工智能:现代方法》已经再版数次,其内容和结构反映了两位作者不断演变的理解。最新的第四版是他们将近十年人工智能的进展,尤其是深度学习的影响纳入整体框架后给出的最新解读,反映了两位大师对人工智能趋势和发展的见解的纪律制度。本次访谈也遵循“现代手法”,希望从契合技术发展和时代发展的角度,展示Russell教授对技术趋势、智能理论、流行VS经典的思考,给AI研究者和从业者带来启发。StuartRussell在加州大学伯克利分校工作。他目前是计算机科学教授(前任系主任)和人类兼容人工智能中心主任。1990年获美国国家科学基金会总统杰出青年科学家奖,1995年获IJCAI计算与思想奖。AAAI、ACM、AAASFellow,在人工智能领域发表论文300余篇,涵盖了广泛的主题。图片来源:kavlicenter.berkeley.eduRussell教授认为,在未来十年,重点将从严重依赖端到端深度学习转向模块化、基于数理逻辑且具有明确定义的表示语义(表示)和深度学习将在获取原始感知数据方面发挥至关重要的作用。需要强调的是,模块化的、语义定义明确的表示不一定是手工制作的或不灵活的,这些表示可以完全从数据中学习。对于如今如此火爆的ChatGPT,Russell教授认为,关键是要分清任务领域,搞清楚在什么情况下使用:ChatGPT如果能够以事实为基础进行锚定,结合起来,可以成为一个很好的工具有了规划系统,会带来更大的价值。问题是我们目前不知道ChatGPT是如何工作的,而且很可能不会,这需要一些难以预测的概念突破。他认为,要构建一个真正的智能系统,我们应该更多地关注数理逻辑和知识推理,因为我们需要用我们知道的方法来构建系统,这样才能保证人工智能不会失控。他不认为扩展就是答案,他不认为更多的数据和更多的计算能力可以解决问题,这太乐观了,也太有趣了。不管深度学习中数据效率低下的根本问题如何,“我担心我们在自欺欺人地认为我们正在走向真正的智能。我们真正在做的就是向根本不智能的模型中添加越来越多的内容。”像素。”-1-Heartofthemachine:在您看来,以ChatGPT为代表的大规模预训练语言模型(LLM)是否从本质上将人工智能提升到了一个更高的层次?LLM是否克服了深度学习系统的一些基本问题,例如常识获取、知识推理?StuartRussell:想到的第一个答案是——我们不知道,因为没有人知道这些模型是如何工作的,包括创建它们的人。ChatGPT知道什么?能讲道理吗?它在什么意义上理解答案?我们不知道。我在俄勒冈州立大学的一个朋友问模型“哪个更大,大象还是猫?”模特回答“大象更大”,但换个方式问:“大象还是猫,哪个不比另一个大?”模特回答说“大象没有比另一个大”。所以你说模型知道哪个更大,大象还是猫?它不知道,因为如果以另一种方式询问它,它会得出相互矛盾的结论。那么,模型知道什么?再举个例子,也是实际发生的事情。这些模型的训练数据中有大量的棋谱,用统一的代码和符号表示。国际象棋游戏看起来像一系列e4e5Nf3Nc6Bb5...棋手知道这些符号的含义以及这些序列描述的动作。但是模型不知道,模型不知道有棋盘,也不知道怎么走。从模型的角度来看,这些符号只是符号。所以,当你和它下盲棋时,你说“让我们下棋,g4”,它可能会回复“e6”,当然这可能是一个很好的举动,但模型没有游戏的概念,它只是从训练中学习在数据中找到相似的序列,并对这些序列进行适当的变换,然后生成下一步的走法。80%甚至90%的时间它会做出好棋,但其他时候它会做出愚蠢或完全非法的棋子,因为它不知道在棋盘上该做什么。不仅仅是下棋,我认为它实际上适用于大模特现在所做的一切:80%的时间它看起来像一个非常聪明的人,但另外20%的时间它看起来像一个彻头彻尾的白痴。它看起来很聪明,因为它有大量的数据、书籍、迄今为止人类写的文章……它几乎都看过了,但即便如此,在收到如此海量的有用信息后,它仍然吐出完全无法理解的东西事物。所以,从这个意义上说,我认为语言大模型很可能不是人工智能的进步。ChatGPT真正令人印象深刻的是它的泛化能力,能够在与用户的对话和之前阅读的文本中找到相似之处,并进行适当的转换,因此它的答案看起来很聪明。然而,我们不知道模型是如何做到这一点的,我们不知道这种泛化能力的边界在哪里,我们也不知道这种泛化在电路中是如何实现的。如果我们知道了,那真的可以说是人工智能的进步,因为我们可以以此为基础,我们可以基于ChatGPT开发其他系统。但现阶段,一切都还是个谜。我们可以继续前进的唯一方法是——模型不起作用?好吧,让我们给它更多的数据,让模型更大一点。我不认为缩放是答案。数据终究会耗尽,现实世界中总会出现新的情况。当我们编写国际象棋程序时,那些实际上能下好棋的程序能够很好地处理从未见过的情况,只是因为这些程序了解国际象棋的规则并且能够让棋子在棋盘上的位置演变——可以放置棋子的位置,对手可能的下一步动作,包括游戏记录中从未见过的动作-都是可视化的。我们现在还远不能在一般的现实世界中做到这一点。与此同时,我认为语言大型模型并没有让我们更接近这个目标。除了一件事,你可能会说,大型语言模型允许我们使用存储在文本中的人类知识。如果我们可以将大型语言模型锚定在已知事实中,它们就会更有用。想想Google的知识图谱有5000亿个事实,如果ChatGPT能够锚定在这些事实中,并且与这些事实相关的问题能够给出正确的答案,那么ChatGPT就会更加可靠。如果我们能找到一种方法将大型语言模型耦合到能够正确推理和计划的推理机上,那么可以说我们已经突破了人工智能的一个瓶颈。我们现在有很多规划算法,但是这些规划算法很难做出正确合理的规划,比如造一辆车,给他们提供需要的知识,因为要理解的东西太多了,而且是非常困难很难将它们全部写下来并确保它们都正确。但是语言大模型把所有关于汽车的书都看了一遍,说不定可以帮助我们建立必要的知识,或者简单的按需回答必要的问题,让我们在规划的时候就可以得到所有这些知识。比起只把ChatGPT看成一个黑盒子帮你做某事,将大型语言模型与规划算法结合起来,让其成为规划系统的知识输入,会带来真正有价值的商业工具。据我所知,已经有人在朝这个方向努力,如果成功,将是向前迈出的一大步。机器之心:作为老师,您如何看待ChatGPT——您会让学生使用ChatGPT来生成论文吗?作为用户,您如何看待ChatGPT衍生出的各种应用,尤其是商务应用?StuartRussell:几周前,当我在达沃斯世界经济论坛上与商界人士交谈时,每个人都在问我关于大型语言模型以及如何在他们的公司中使用它们。我觉得你可以这么想,你会把一个6岁的孩子放在你们公司的同样岗位上吗?两者虽然在能力上有差距,但我觉得还是可以这样比较的。语言巨型模型、ChatGPT不值得信赖,它们没有常识,会严肃地提供错误信息。因此,如果您要在公司中使用ChatGPT或类似模型,则必须非常小心。如果你把公司里的某些职位或职责想象成网络中的节点,语言就是在这些节点中输入和输出——当然你可以这样看,很多工作都是这样的,比如记者,教授做的同样这样的事情。但是,这并不意味着您可以用ChatGPT替换它们。在教育方面,我们必须非常小心。ChatGPT的出现让很多人感到恐慌。有人说,啊,我们必须在学校禁用ChatGPT。其他人说禁用ChatGPT是荒谬的,他们挖掘了19世纪的一些讨论——当时有人说哦,我们必须禁止机械计算器,因为如果学生开始使用机械计算器,他们将永远无法学会正确的数学。这听起来有说服力吗?我们似乎没有必要禁止ChatGPT吗?然而,这个类比是完全错误的——机械计算器使非常机械的过程自动化。将26位数字相乘是非常机械的。它是一组指令。你只需要按照步骤,一步一步,一步一步,就能得到答案。遵循说明的智力价值是有限的,尤其是当此人不理解说明的作用时。但ChatGPT将取代的不是机械地遵循指令的能力,而是回答问题、阅读理解和组织想法写作的能力。如果你连这些都不学,让ChatGPT来代替,那你可能真的长大成了废人。现在有了电子计算器,但我们还是教孩子算术,教他们算术规则,尽量让他们明白数字是什么,数字与物理世界的事物是如何对应的,等等。只有当他们有了这样的认识,掌握了算术规则,我们才给他们电子计算器,使他们不必遵循机械程序。在我们那个时代,没有计算器,我们使用带有各种正弦、余弦和对数函数值的打印表格。没有人说过使用这些表格会妨碍你学习数学。所以,我们必须弄清楚学生什么时候开始使用像ChatGPT这样的工具是合适的。回答你刚才的问题,如果你能找到写论文这个任务的无脑部分——其实写论文的过程中有很多时候不需要动脑,只是机械地重复乏味和无聊的过程——那么你可以使用ChatGPT,我对此没有问题。然而,写作并不都是一个无聊的过程。写作本质上是一种思考,也是人们学会思考的一种方式。我们最不想要的是盲目使用ChatGPT,既不理解问题也不理解答案的人。至于ChatGPT的其他应用,比如生成图片或者音乐,我觉得情况也差不多,关键是区分任务域。我觉得艺术创作的过程大致可以分为两个部分,首先是对自己想要创作的东西有一个概念,然后是按照自己的想法去实际创作的比较机械的过程。后者对一些人来说是非常有挑战的,无论怎么努力,也拍不出好看的图,所以我们有专门培养的美工,尤其是商业美工,他们的作品不涉及太多创意,多关注到根据需要制作图片的能力。我认为这是一个非常危险的职业。我在写书的时候就有过这样的经历。《人工智能:现代方法》里面有五六百幅插画,几乎都是我自己画的。制作好的插图或图表是一个缓慢而艰苦的过程,需要大量的技巧和技巧。如果有像我书中那样生成图表或技术插图的大型模型或应用程序,我会非常乐意使用它们。基于模型、基于实用程序的代理。来源:《人工智能:现代方法(第 4 版)》图解2-14GeneralLearningAgent。来源:《人工智能:现代方法(第 4 版)》插图2-15-2-机器之心:我们不知道ChatGPT的原理,但是通过工程实现,我们得到了在某些情况下有用的工具;ChatGPT似乎是一个很好的将人们带入循环的好例子。从工程的角度来看,ChatGPT是一种改进吗?StuartRussell:我不确定ChatGPT是否可以称为工程,因为一般来说,我们认为“工程”是一门应用工程科学的学科,结合物理、化学、机械、电子等知识和巧妙的方法来制造对人类有用的东西。同时,我们明白了为什么这些东西有用,因为它们有用的属性是我们通过特定的方法实现的,可以重现。但是我们是如何开发ChatGPT的呢?结合人类反馈是有用的,但从结果来看,ChatGPT是在大数据集上做梯度下降得到的。这让我想起了20世纪50年代,当时在遗传编程上投入了大量精力,人们希望通过模拟生物进化来实现智能Fortran程序,结果惨遭失败。从理论上讲,当你有足够多的Fortran程序并使它们发生足够多的变异时,原则上是有可能产生比人类更聪明的Fortran程序的。只是这种原则上的可能性在实践中并没有实现。现在,你在足够大的电路和足够多的数据上做梯度下降,突然间你就能创造出真正的智能?我觉得可能性不大,也许比进化Fortran程序多一点——但也不好,也许Fortran程序可能性更大,因为有理由认为Fortran程序比电路更具有表现力。语言,在1958年他们放弃Fortran程序时,计算能力比我们现在拥有的能力低15或16个数量级。机器之心:所以你不用“工程”这个词,你怎么看OpenAI在做什么?StuartRussell:OpenAI正在做的事情,你可以称之为Cookery,因为我们真的不知道这些模型是如何工作的。就像我做蛋糕的时候,不知道怎么变成了蛋糕。几千年来,人类一直在制作蛋糕。在尝试了很多不同的食材和很多不同的方法之后,在各种食材和方法中做了很多梯度下降之后,有一天我发现了一个神奇的东西——蛋糕,它就是烹饪。现在我们对蛋糕的基本机制有了更多的了解,但它仍然不完美。通过烹饪我们只能得到这么多,这个过程并没有太大的智力价值。如果有一天,因为ChatGPT的一些根本性问题,你无法通过输入提示(prompt)或指令(instruct)得到你想要的答案怎么办?又要修改食谱?将token从4000提升到5000,网络层数翻倍?这不是科学,我不认为它在智力上很有趣。试图了解大型语言模型如何工作的研究当然很有价值,因为ChatGPT正在做大量的泛化,只有弄清楚这是如何发生的,我们才能真正开发出有意义的智能系统。现在有很多人在研究它,也有很多发表的论文。但是能不能理解ChatGPT的内部机制,我觉得不好说,可能太复杂了,我们也没有办法逆向工程里面到底是怎么回事。一个有趣的类比是三万年前发生在人和狗之间的事情。我们不了解狗的大脑是如何工作的,也很难完全弄清楚狗在想什么,但我们已经学会了驯化它们,现在狗已经成为我们生活的一部分,它们扮演着各种有价值的角色.我们发现狗擅长很多事情,包括看家和带孩子玩耍,但我们没有通过工程来做到这一点,我们通过繁殖,通过调整配方来选择和改进这些特性。但是您不希望您的狗为您写文章,您知道它们不能,而且您可能也不希望您的狗这样做。整个ChatGPT的事情令人惊讶的是,我认为这是人工智能系统第一次真正进入公众视野,这是一个很大的变化。OpenAI本身有个说法很好,就是ChatGPT虽然不是真正的智能,但是它让人体尝到了真正(人工智能)智能的滋味,每个人都可以用那种智能为所欲为。.机器之心:还有一点很多人关注的是LLM带来的中间任务的消失。您认为语义分析、句法分析等这些中间任务,从技术迭代的角度来看,是否还有很大的价值,未来真的会消失吗?那些处于中间的人工智能研究人员和从业者,那些没有强大硬件资源和强大领域知识的人是否有失业的危险?斯图尔特·拉塞尔:这是个好问题。事实是语义分析的论文很难发表,事实上,很难让NLP社区的人去听任何东西,除非你讲语言的大模型,或者用大模型刷新大基准.几乎所有的论文都是关于刷新大基准的。你很难发表一篇不刷新benchmark的文章,比如语言结构,语言理解,或者语义分析,句法分析等等,所以评估大模型的benchmarks成为了唯一的选择写论文,这些大benchmark跟语言没有关系。从某种意义上说,在今天的自然语言处理领域,我们不再研究语言,我认为这是非常不幸的。计算机视觉也是如此,在今天的大多数计算机视觉研究中,我们不再研究视觉,我们只研究数据、训练和预测精度。至于未来如何发展人工智能,我觉得应该关注我们理解的方法、知识和逻辑推理。原因有两方面,首先我们希望AI系统可靠,我们需要确保它们在数学上是安全和可控的,这意味着我们必须了解我们构建的系统。其次,就数据效率而言,如果要实现通用智能,这将是必须的,人脑的运行功率为20瓦,而不是20兆瓦。电路不是一种非常有表现力的语言,这些算法的数据效率比人类学习低几个数量级,而且你很难在电路中写出我们所知道的关于世界的许多东西。一旦我们有了通用计算机和编程语言,我们就停止使用电路,因为它更简单、更容易地在程序中表达我们想要的东西,而人工智能社区在很大程度上已经忘记了这一点。一时间,很多人误入歧途。-3-HeartoftheMachine:《人工智能:现代方法》第四版有一个重要的更新,就是不再假设AI系统或agent有一个固定的目标。此前,人工智能的目的被定义为“创造一些试图最大化预期效用的系统,其目标由人类设定”。现在我们不再为人工智能系统设定目标。为什么会有这样的变化?StuartRussell:有几个原因。首先,随着人工智能走出实验室进入现实世界,我们发现很难完全正确地定义我们的目标。例如,当你在路上开车时,你想快速到达目的地,但这并不意味着你应该以每小时200英里的速度行驶,如果你告诉自动驾驶汽车安全第一,它可以永远停在车库里。在安全快速地到达目的地、对其他司机友好、不让乘客感到不舒服、遵守法律法规等之间需要权衡取舍。路上总会有风险,不可避免的事故,开车时很难写下你所有的目标,这是生活中一件小而简单的事情。因此,从实践的角度来看,为人工智能系统设定目标是不合理的。其次,涉及到我在书中提到的迈达斯国王(KingMidasProblem)的例子。迈达斯是希腊神话中的国王。他非常贪婪,祈求上帝赐予他点石成金的能力。上帝实现了他的愿望,他所触及的一切都变成了黄金。他实现了他的目标,但后来他的水,他的食物也变成了金子,他的家人被他感动后也变成了金子,最后他在黄金的包围下惨死。这提醒我们,当你为非常强大的系统定义目标时,你最好确保你定义的目标是绝对正确的。但现在我们知道我们不能那样做,随着人工智能系统变得越来越强大,他们不知道真正的目标是什么变得越来越重要。目标其实是一个很复杂的东西。例如,如果我说我想在午餐时买一个橙子,那可以成为一个目标,对吧?在日常生活中,目标被视为可以实现的事情,一旦实现,事情就结束了。但在哲学和经济学定义的理性选择理论中,并没有这样的目标。我们所拥有的是对各种可能的未来的偏好或排序,每一种可能的未来都从现在延伸到时间的尽头。它包含宇宙中的一切。我认为这是对目的、人类真正想要的东西的更复杂、更深入的理解。机器之心:这种转变如何影响人工智能未来的发展?StuartRussell:自从人工智能在20世纪40年代和50年代计算机科学诞生以来,研究人员需要有一个智能的概念,以便他们可以基于它进行研究。虽然一些早期的工作更多地是关于模仿人类的认知,但理性的概念赢得了胜利:一台机器为实现其预期目标而采取的行动越多,我们就认为它越聪明。在人工智能的标准模型中,我们的目标就是创造这种机器;人类定义目标,机器完成剩下的工作。例如,对于一个确定性环境下的解系统,我们给出一个代价函数和一个目标准则,让机器找到代价最小的动作序列来达到目标??状态;对于随机环境下的强化学习系统,我们给出奖励函数和折扣因子,让机器学习最大化预期折扣奖励总和的策略。这种方法也可以在AI领域之外看到:控制器最小化成本函数,运营研究人员最大化奖励,统计学家最小化预期损失函数,经济学家最大化个人效用或群体福祉。但标准模型实际上是错误的。正如刚才所说,我们几乎不可能准确地指定我们的目标,当机器的目标与我们真正想要的不符时,我们可能会失去对机器的控制,因为机器会先发制人地采取措施,在所有成本价格确保其实现既定目标。几乎所有现有的人工智能系统都是在标准模型的框架下开发的,这带来了一个很大的问题。在《人工智能:现代方法(第 4 版)》中,我们提出人工智能需要一个新的模型。新模型强调了AI系统对目标的不确定性。这种不确定性使得机器在采取行动之前学习人类的偏好并征求人类的意见。在人工智能系统的运行过程中,必须有一些信息从人类流向机器,这些信息反映了人类的真实偏好,而不是人类在最初设定目标后无关紧要的事实。这就需要机器与固定目标的解耦,机器与人的二元耦合。标准模型可以被视为一种极端情况,在这种情况下,在机器的能力范围内,指定人类期望的目标是完全正确的,例如下围棋或解决难题。我们还在书中提供了一些示例来说明新模型的工作原理,例如不确定的偏好、关闭开关问题、辅助游戏等。但这些只是开始,我们才刚刚开始。机器之心:在飞速发展的人工智能领域,如何紧跟技术潮流而不盲目追逐热点?人工智能研究者和从业者应该时刻牢记什么?StuartRussell:要构建一个真正的智能系统,我认为根本问题是能够用一种表征语言来表征宇宙中包含的各种不规则性。这是智能与电路的本质区别。据我们所知,电路不能很好地表示这些不规则性,这在实践中表现为极端的数据效率低下。作为一个简单的例子,我可以写下正弦函数的定义(用数学公式),或者我可以尝试用大量像素来凭经验描述正弦函数。如果我只有10兆像素,我只能覆盖一部分正弦函数,如果我看我覆盖的区域,我似乎有一个很好的正弦函数模型。但实际上,我并不真正理解正弦函数,我不知道函数的形状,也不知道它的数学性质。我担心我们在自欺欺人地认为我们正在走向真正的智慧。我们真正在做的是为一些根本不是智能模型的东西添加越来越多的像素。我认为在构建人工智能系统时,我们需要关注那些具有基本表示能力的方法,其核心是能够声明所有对象。假设我要写下围棋的规则,那么这些规则必须适用于棋盘上的每一个方格,我可以说每个x和每个y会发生什么,我也可以用C++或者Python写,我也可以用Written用英语写成一阶逻辑。这些语言都让我可以非常简洁的写下规则,因为它们都有表达那些规则的表达力。然而,我一直无法在电路中做到这一点,基于电路的表示(包括深度学习系统)不能表示这种类型的泛化。忽略这个事实并试图通过大数据实现智能在我看来是荒谬的。这就好比说,围棋棋子是什么不用去了解,因为我们有几十亿的训练样本。如果你想一想人类智能的作用,我们建造了LIGO,我们检测了来自宇宙另一边的引力波。我们该怎么做呢?基于知识和推理。在建造LIGO之前,我们在哪里收集训练样本?很明显,前人学到了一些东西,包括他们的感官经验,然后用英语、数学等一些有表现力的语言记录下来。我们从中学习,了解宇宙规律,并据此进行推理和设计。和设计等等,以观察宇宙另一边的黑洞碰撞。当然,基于大数据实现智能化是可能的,很多事情都是可能的,也有可能进化出比人类更智能的Fortran程序。但是我们花了两千多年的时间来理解知识和推理,也开发了大量基于知识和推理的优秀技术,并基于这些技术开发了成千上万个有用的应用程序。现在你感兴趣的是智力,而不是知识和推理,对此我无话可说。