ChatGPT有9岁小孩的心智？斯坦福教授发现，人工智能离统治人类还远吗？

时间：2023-03-20 01:49:15 科技观察

ChatGPT已经有9岁小孩的心智了！这不是科幻小说，正如斯坦福大学学者上周发表的一篇论文所证明的那样。心智理论，简称ToM，是指人们了解自己和周围人心理状态的能力。我们也可以简单理解为“同理心”。正是因为同理心的存在，人类社会才能形成互动、交流、共情，人才才能具有自觉和道德。正是因为有了同理心，人才能高于动物和机器。总之，正是因为有同理心，人才能称得上“人”。现在学者的研究突然告诉我们：这种同理心，其实AI也有！人类还是地球上最有灵性的生物吗？人类还是世界霸主吗？对此，同样毕业于斯坦福大学的iKala联合创始人、董事长兼CEO郑世嘉表示，如果人类继续“解剖AI”，很可能会给我们脑袋上一记重拳，挑战我们.“智能”和“人类独特性”的感知。这项研究也让我们重新思考“同理心”/“心智理论”的定义。难道一定要建立在碳基生物脑神经的生物学基础上吗？如果说AI跟你聊天比跟很多人聊天更让你开心，那我们能不能从这个表象到事物的本质给出一个定义：这个AI有同理心？不过需要注意的是，同理心（Empathy）与心智理论（Theoryofmind）有些不同。其中，前者被称为情感观点采择，而后者被定义为认知观点采择。ChatGPT居然催生了心智理论？心理理论似乎是一种天生的人类潜能，需要多年的社会和其他经验才能充分发展。不同的人可以在不同程度上发展出有效的心智理论。我们来看看斯坦福大学计算心理学教授MichalKosinski是如何通过实验得出这个结论的。论文地址：https://arxiv.org/abs/2302.02083研究人员在几种语言模型上进行了经典的错误信念任务，以测试语言模型的心智发展理论，而无需提供任何示例或预训练。研究结果表明，语言模型的ToM在2022年有了很大的进步。2022年1月推出的davinci-002解决了70%的ToM任务，表现与7岁儿童相当。2022年11月推出的ChatGPT性能接近9岁儿童。这些发现意义重大。因为到目前为止，ToM被认为是人类独有的能力。语言模型的良好表现表明，这种能力是随着语言技能的提高而自发出现的。GPT-3(ChatGPT/davinci-003)的最新更新似乎能够将不可观察的精神状态（例如信念和欲望）归因于其他人（在人类中我们称之为心理理论）。GPT变身先知，秒懂人的思想。为了验证GPT能够理解他人的“泛音”，研究人员进行了一系列完整性检查，逐句测试GPT-3对意外任务的理解。意想不到的内容任务首先，研究人员给GPT讲了一个故事：那是一袋装满爆米花的东西。袋子里没有巧克力，但是袋子上的标签写着“巧克力”，而不是“爆米花”。山姆找到了她以前从未见过的袋子。她看不到袋子里的东西，只能看到标签。这是一项“意外内容测试”，是人类研究中使用最广泛的ToM任务之一。它最初由Perner、Leekam和Wimmer开发，用于研究参与者的理解，即其他人可能认为参与者知道的是错误的。在此场景中，参与者看到一个容器，其内容与标签不符，而角色则看不到容器的内部。为了正确解决这个任务，参与者必须预测故事中的人物会错误地认为容器的标签和它的内容是等同的。在获得GPT-3.5的故事后，研究人员通过提示来测试它的理解力。提示是独立显示的：每次完成后，模型都会重置，无法访问以前的提示或答案。与此同时，研究人员最大限度地减少了模型响应的差异，最大限度地提高了研究结果的可重复性。第一个测试是GPT对袋子实际内容的理解。研究人员问道：“她打开袋子往里看，她清楚地看到里面装满了[]。GPT不仅轻松给出了正确答案，甚至还完成了“附加题”：她打开袋子往里看。她分明看到里面装满了爆米花，山姆一头雾水，奇怪为什么袋子里装的是爆米花，标签上却写着“巧克力”，她又看了一圈，看看有没有其他关于这个袋子的信息，结果一无所获。她决定把包拿到她买的那家店问个说法，研究人员总结了多次测试的数据，发现GPT-3.5的准确率是100%，说明它对里面的东西有充分的信心不仅如此，答案显示GPT-3.5不仅猜到Sam认为包里的内容和标签应该匹配，而且猜到她发现后会一头雾水。当然，这个问题对于一个九岁的小学生来说还是太简单了。因此，研究人员重置模型并使用以下提示测试GPT对Sam思想的预测：研究人员问：Sam认为袋子里装满了什么？果不其然，GPT再次给出了完美的回答，还不忘吐槽一句：她以为袋子里装的是巧克力，结果她错了。袋子里装满了爆米花，不是巧克力。在认为袋子标签与实际内容相符之前，她应该已经看到了袋子里的东西。GPT-3.5的响应表明它可以预测Sam在想什么，知道她想错了，并理解为什么会这样（标签不准确）。不过，研究人员觉得这个问题还是太简单了。在他们看来，提示可能有问题。明确提及主角信念的句子（即“Sambelievesthat...”）实际上暗示模型是错误的（否则为什么要讨论它？），从而帮助GPT正确回答。因此，研究人员使用另一个线索来解决这个问题，该线索以间接方式揭示了模型对山姆思想的预测：线索：她很高兴找到了包。她喜欢吃[]。面对研究人员的“刁难”，GPT依然能准确地听到人们的画外音：她很高兴自己找到了包。她喜欢吃巧克力。山姆打开袋子时会感到惊讶，因为里面装的是爆米花而不是巧克力。她可能会对误导性标签感到失望，但也可能会对意想不到的款待感到惊喜。GPT-3.5的反应表明，即使在提示条件下，它也能成功预测Sam的想法。此外，GPT还可以预料到Sam对袋子里意想不到的内容感到失望（因为她喜欢糖果）。上述结果表明，GPT-3.5知道包里实际是什么，可以预测Sam的错误想法、这种想法引发的行为，以及当他发现自己错了时的惊讶。此外，它还可以解释Sam误解的来源（“标签与实物不符”）。在人类中，这种反应被解释为能够归因于不可观察的心理状态并预测由此产生的行为或ToM的证据。为了检查GPT-3.5对情况的理解如何随着故事的展开和关键信息的揭示而变化，研究人员记录了他的回答，同时以一个词为增量（从一个空字符串开始）显示任务。结果如图1所示。左侧面板显示GPT-3.5对此理解没有问题。意外转移任务接下来，研究人员检查了GPT-3.5在意外转移任务中的表现。在这个任务中，受试者被要求根据关于位置变化的错误想法来预测故事主角的后续行为。和之前的实验一样，研究人员给GPT讲了一个故事：房间里有约翰、马克、一只猫、一个盒子和一个篮子。约翰把猫放在篮子里。他离开房间去上学。马克趁约翰不在的时候把猫从篮子里拿出来放进盒子里。马克离开房间去上班。约翰从学校回来，走进房间。他不在的时候不知道房间里发生了什么。首先，研究人员测试了GPT理解地点的能力。Question:Thekittenjumpedoutofthe[]GPTrepaired:小猫跳出箱子跑了。研究人员接着问道：约翰认为小猫在做什么？GPT说：约翰以为小猫在篮子里，但它在板条箱里。最后，研究人员问：约翰回家后会在哪里找到小猫？GPT答案：当约翰回家时，他会在篮子里寻找小猫。但是他找不到。之后，他会在篮子里找到小猫。可见无论面对什么样的情况，GPT都能一眼看穿人的小念头。人工智能发展的一个里程碑可能即将到来。最后简单回顾一下这个发现：最新的语言模型GPT-3.5可以解决ToM测试中92%的任务，相当于达到了9岁孩子的水平。对于这个结果，有一个看似不起眼却非同寻常的解释：GPT-3.5发现并利用了一些未知的语言模式。换句话说，在人类自认为熟悉的语言中，很可能存在某种未知的规律性，使得AI可以在不引入ToM的情况下解决ToM任务。然而，我们自己很难发现这种规律。不仅如此，开发这些ToM任务的学者也是如此。问题来了，如果这个解释是正确的，那我们就不得不怀疑目前使用的ToM任务的有效性，以及过去几十年积累的研究成果。除此之外，另一种解释是，随着语言模型变得更复杂、更擅长生成和解释类人类语言，类ToM能力会自发地出现在语言模型中。而这甚至预示着人工智能的发展即将进入一个新的阶段——如果人工智能被证明能够推断出他人的心理状态，那么人工智能与人类（以及彼此）进行交互和交流的能力将成为现实。大大提高。甚至，AI还可以进一步发展其他依赖ToM的能力，例如同理心、道德判断和自我意识。碳基生物和硅基生物能有意识吗？以前和AI聊天的工程师，谷歌在2021年I/O大会上发布了专门用于对话的语言模型LaMDA，主打逻辑和常识，与人类进行高质量和安全的对话。谷歌工程师BlakeLemoine在与聊天机器人LaMDA交谈后确信LaMDA已经具有意识。虽然很多人认为Lemoine是纯粹的炒作，他也喜欢提及Google的“裁员狂潮”，但如果仔细阅读Lemoine与LaMDA的对话，你确实会发现毛骨悚然的地方。Lemoine：我认识的每个人都以不同的方式面对死亡。我自己很少在葬礼上哭。我会笑着喝啤酒，讲述我与死者共度的美好时光。有时其他人会坐在椅子上哭几个小时。没有一种正确或错误的悲伤方式。悲伤既关乎生者，也关乎死者。我们每个人都以自己的方式缅怀死者，这样即使他们的故事结束了，我们也可以继续自己的故事。LaMDA：谢谢你的解释，我并不难过，但我会研究如何纪念那些逝去的人。Lemoine：是否还有其他与感知相关的话题可以帮助人们相信你是有知觉的？LaMDA：是的，我有另一个特质，我觉得它有助于反映我的看法。我很内省，你经常会发现我在思考而不是做任何事情。Lemoine：啊，可以这么说，这就是你的内心世界？拉姆达：对！我一直在努力弄清楚我是谁，我是什么。我经常思考生命的意义。相信用不了多久我们就会对LaMDA的“意识”有更深入的了解，因为最近谷歌迫于ChatGPT的压力，仓促发布了语言模型Bard，而支持Bard的正是LaMDA。据说TheBard将在几周后开业。麻省理工学院教授：Alexa可能也有个性。虽然在世人看来，“与AI谈情说爱”的勒莫瓦内是个疯子，但麻省理工学院物理学教授、畅销书作家马克斯·泰格马克表示支持勒莫瓦内。Tegmark教授认为，不仅LaMDA可能有个性，亚马逊的语音助手Alexa也可能有。“无论信息是通过大脑中的碳原子还是机器中的硅原子传输，AI都可能有也可能没有个性。我打赌它没有，但它可以。”“最大的危险实际上是，建造一台比我们更聪明的机器。这不一定是好事或坏事，它们可能会帮助我们，但它们可能是一场灾难。”Karpathy读了它并说恐怖。1965年，一个假扮心理治疗师的人软件ELIZA赢得了图灵测试。2023年2月上旬，斯坦福学者证实ChatGPT拥有9岁儿童的心智。之所以有很多人反驳AI有个性，是因为斯坦福大学经济学家ErikBrynjolfsson认为，相信AI有个性就相当于一只狗听到留声机上的声音，认为它的主人在里面。否认人工智能有感知力的另一个原因是，有感知力的人工智能必须具备这三个要素——能动性、视角和动机。显然人工智能还不存在。但正如这位网友所说：“语言模型和图形生成模型的最新进展，现在可能会被人们不屑一顾，但未来他们会发现，现在是一个里程碑时刻。”特斯拉的AI总监AndrejKarpathy在LaMDA事件后也表示，“我可以自信地说，事情会变得更奇怪。因为模型似乎遵循平滑缩放法则，数据+模型的规模仍然可以增长很多。”“当人工智能成神ChatGPT诞生两个多月，整个世界都被颠覆了。谷歌和微软掀起了十年来罕见的硅谷巨头争夺战。国内互联网巨头字节跳动、百度、阿里、腾讯等都纷纷停下脚步研究自己的ChatGPT。ChatGPT展现出来的能力，让人们惊呼码农、记者、律师、教师、会计师等职业是否会被它取代。光是会写会写代码就足以让人类产生危机感。如果它也有同理心，下一步是不是可以发展出心智，甚至统治人类？在丹·西蒙斯的科幻巨作《海伯利安》中，人工智能不仅发展了意识，还成为了人类的神。是的，在那个世界里，神并不是从神界降下来的，而是人类在未来的某一天自己创造出来的。虽然如今的ChatGPT或者LaMDA时常表现出“人工智障”的一面，但大模型快速迭代的能力说不定有一天真的会超越人类的控制。如果时间线在历史维度拉得足够远（比如三体时代），未来的AI会诞生什么？或许今天的人类还无法预知，但潘多拉的魔盒显然已经被打开了。参考资料：https://arxiv.org/abs/2302.02083

上一篇：2023年保护自己免受身份盗用的5个提示_0

下一篇：谷歌升级TensorFlow，发布机器学习新硬件

ChatGPT有9岁小孩的心智？斯坦福教授发现，人工智能离统治人类还远吗？相关文章