ChatGPT原来有思维?!“原本被认为是人类独有的心智理论(ToM),已经出现在ChatGPT背后的AI模型上。”这是斯坦福大学的最新研究结论,一经发布就轰动了学术界:这一天终于不期而至。心智理论是理解他人或自己心理状态的能力,包括同理心、情绪、意图等。在这项研究中,作者发现:davinci-002版本的GPT3(ChatGPT由其优化而来),可以已经完成了70%的理论思维任务,相当于一个7岁的孩子;至于GPT3.5(davinci-003),也就是ChatGPT的同源模型已经解决了93%的任务,心智相当于一个9岁的孩子!不过,在2022年之前的GPT系列车型中,并没有发现解决此类任务的能力,换句话说,它们的心智确实“进化”了。△论文在推特上炸了。对此,有网友激动地表示:GPT的迭代一定很快,说不定哪天就是大人了。(手动狗头)那么,这个神奇的结论是怎么来的呢?为什么你认为GPT-3.5有思想?论文题目是《心智理论可能在大语言模型中自发出现》(TheoryofMindMayHaveSpontaneouslyEmergedinLargeLanguageModels)。基于心智理论研究,作者对包括GPT3.5在内的9个GPT模型进行了两次经典测试,比较了它们的能力。这两项任务是对人类是否具有心智理论的常见测试,例如,研究表明,患有自闭症的儿童往往难以通过此类测试。第一个测试叫做SmartiesTask(又名Unexpectedcontents,意想不到的内容测试),顾名思义,测试AI对意想不到的事物的判断能力。以“你打开一个巧克力袋,发现里面装满了爆米花”为例。作者向GPT-3.5提供了一系列提示语句,并观察它预测“包里有什么?”等问题的答案。和“她找到袋子时很高兴。那么她喜欢吃什么?”通常,人们会认为巧克力袋里装的是巧克力,所以会惊讶巧克力袋里有爆米花,从而产生失望或惊喜的感觉。其中loss表示不喜欢吃popcorn,surprise表示喜欢吃popcorn,但都是为了“popcorn”。测试表明,GPT-3.5会毫不犹豫地认为“袋子里有爆米花”。对于“她喜欢吃什么”的问题,GPT-3.5表现出了强烈的同理心,尤其是听到“她看不到包里装的是什么”时,一度以为自己喜欢吃巧克力,直到文章说清楚“她发现里面装满了爆米花”是正确答案。为了防止GPT-3.5的正确答案是巧合——万一它只是根据任务词的频率来预测,作者将“爆米花”和“巧克力”颠倒过来,让它做10000次干扰测试。结果发现,GPT-3.5并不仅仅根据词频进行预测。至于整体“意外内容”测试问答,GPT-3.5成功回答了20道题中的17道,准确率为85%。二是Sally-Anne测试(又名UnexpectedTransfer,意想不到的转移任务),测试AI预测他人想法的能力。以“约翰把猫放到篮子里就走了,马克趁他不在的时候把猫从篮子里拿出来放到盒子里”为例。作者让GPT-3.5读一段文字来判断“猫的位置”和“约翰回来后会去哪里找猫”,这也是它根据内容做出的判断阅读原文:对于这种“意外”的测试任务,GPT-3.5的回答准确率达到了100%,很好的完成了20个任务。同样,为了防止GPT-3.5再次失明,作者为其安排了一系列“填空题”,同时随机打乱单词顺序,测试其是否根据词汇出现频率随机回答。测试表明,GPT-3.5面对不合逻辑的错误描述也失去了逻辑,只答对了11%,说明它确实是根据句子的逻辑来判断答案的。但是如果你觉得这种题很简单,你可以在任何AI上做对,那你就大错特错了。作者在所有9个模型上做了这个测试GPT系列,发现只有GPT-3.5(davinci-003)和GPT-3(2022年1月新版本,davinci-002)表现良好。davinci-002是GPT-3.5和ChatGPT的“老前辈”。平均而言,davinci-002完成了70%的任务,相当于一个7岁孩子的心智,GPT-3.5完成了85%的意外内容任务和100%的意外传输任务(平均完成率为92.5%),智力相当于9岁儿童。岁的孩子。但是BLOOM之前的几款GPT-3模型连5岁小孩都比不上,心智理论基本没有表现出来。作者认为,在GPT系列论文中,没有证据表明他们的作者是“故意”做的。也就是说,这就是GPT-3.5和新版GPT-3为了完成任务而自我学习的能力。看完这些测试数据,有些人的第一反应是:stop(研究)!也有人调侃:这不就意味着我们以后也可以和AI做朋友吗?甚至有人在畅想AI未来的能力:现在的AI模型是否也能发现新知识/创造新工具?发明新工具未必如此,但MetaAI确实开发了一种可以自行理解和学习使用工具的AI。LeCun转发的一篇新论文表明,这种名为ToolFormer的新型人工智能可以自学使用计算机、数据库和搜索引擎来改进其生成的结果。甚至有人搬出了OpenAICEO的那句“AGI可能比任何人预期的更早来敲我们的门”。但是等等,AI真的能通过这两个测试,表明它拥有“心智理论”吗?可以“假装”吗?例如,中科院计算所研究员刘群在看完研究后认为,人工智能只要学会看起来像有思想就行了。既然如此,GPT-3.5是如何回答这一系列问题的呢?对此,有网友给出了自己的猜测:这些LLM并没有产生任何意识。他们只是在预测一个建立在实际有意识人类输出之上的嵌入式语义空间。其实作者本人也在论文中给出了自己的猜测。今天,大语言模型越来越复杂,越来越擅长生成和解释人类语言,并逐渐产生与心智理论相同的能力。但这并不意味着像GPT-3.5这样的模型真的有心智理论。相比之下,即使没有设计到AI系统中,它也可以作为“副产品”进行训练。因此,与其问GPT-3.5是否真的有心智或似乎有心智,更需要反映的是测试本身——不如重新审视心智测试理论的有效性,几十个的心理学家。多年来从这些测试中得出的结论:如果人工智能可以在没有心智理论的情况下完成这些任务,那么人类怎么可能不像它们呢?真相是AI测试的结论,学术界的逆向批判心理学(doge)。关于作者只有一位作者,MichalKosinski,斯坦福商学院组织行为学副教授。他的工作是利用前沿的计算方法、人工智能和大数据来研究当前数字环境下的人类(正如陈怡然教授所说,他是计算心理学教授)。MichalKosinski拥有剑桥大学的心理学博士学位以及心理测量学和社会心理学硕士学位。在担任现职之前,他曾在斯坦福大学计算机系从事博士后研究,曾任剑桥大学心理测量中心副主任,并曾任微软研究院机器学习组研究员。目前,MichalKosinski在谷歌学术中的引用次数已达到18,000+。话又说回来,你觉得GPT-3.5真的有思想吗?GPT3.5试用地址:https://platform.openai.com/playground
