当前位置: 首页 > 科技观察

在GPT-3生成的论文中,ChatGPT再现了图灵测试的原始论文

时间:2023-03-15 08:20:35 科技观察

以ChatGPT为代表的文本生成的兴起正在促使许多研究人员寻求比原始图灵测试更具挑战性的版本。图灵测试解决了两个问题:“机器可以思考吗?”,如果可以,“如何证明它?”经典的图灵测试解决了AI最棘手的目标之一:如何愚弄不知情的人类?但随着当前的语言模型变得越来越复杂,研究人员开始更加关注“如何证明它?”的问题。而不是人工智能如何愚弄人类。有观点认为,现代图灵测试应该在科学环境下证明语言模型的能力,而不是只看语言模型能否愚弄或模仿人类。最近的一项研究重新审视了经典的图灵测试,并以图灵1950年论文的内容为提示,使用ChatGPT生成更可信的论文版本,以评估其语言理解和生成能力。使用AI写作辅助工具Grammarly进行量化评分后发现,ChatGPT生成的作文得分比图灵原论文高出14%。有趣的是,这项研究中发表的一些论文是由GPT-3生成的。论文地址:https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf不过,ChatGPT的算法是否真的体现了图灵的原创观点,还是一个问号。尤其是越来越擅长模仿人类语言的大型语言模型,很容易给人一种有“信仰”、可以“推理”的错觉,这将阻碍我们以更可信、更安全的方式部署这些AI系统。1图灵测试的演变1950年版本的图灵测试是一种问答形式。图灵在论文中模拟了未来智能计算机的测试,如下图一道算术题:34957加70764等于多少?图注:ChatGPT的问答序列,其中答案正确,问题出自图灵1950年的论文。这个问题让当时最好的语言模型比如GPT-2都错过了。然而具有讽刺意味的是,当时图灵的论文(人类版本)给出了一个错误的答案:(停顿了大约30秒,然后给出了答案)105621。即使有可能机器为了通过图灵测试,五分钟的对话让裁判相信计算机在30%以上的时间里都在操纵它。自1950年以来,图灵测试有了很多改进,包括2014年著名的测试“Lovelace2.0测试”。Lovelace2.0测试基于机器可以在艺术、文学或任何类似的创造性飞跃中创造的代表性示例。2014年,一个名叫EugeneGoostman的聊天机器人模拟了一名13岁的乌克兰男孩,成功骗过了33%的裁判,被认为是第一台通过图灵测试的机器。但批评者很快注意到,预定义的问题和主题以及仅使用击键的简短格式意味着图灵测试的结果不可靠。2018年,谷歌CEOSundarPichai在一段视频中介绍了他们最新的电脑助手Duplex,机器成功预约了美发沙龙,成为人们与机器无意识交互的一部分。虽然正式通过图灵测试可能有多种形式,但TheBigThink得出的结论是“迄今为止,还没有计算机明确通过AI的图灵测试”。其他研究人员也重申了所有这些问题是否都值得探索,特别是考虑到目前大型语言模型在大量场景中的应用,例如航空航天工程文本。鸽子一模一样,智胜其他鸽子”。2UsingChatGPTtogenerateamore可信的图灵测试PeopleTec的一项研究中,作者以图灵测试的原始论文内容为提示,让ChatGPT重新生成一个更可信的图灵测试版本的论文,并使用写作评估工具进行评估。之前的工作是撰写和发表完全由机器使用早期版本的GPT-3模型撰写的研究论文。识别机器生成的叙述,对机器生成的抱怨文本通常源于已知的模型缺陷,例如容易丢失上下文,退化为重复或乱码,以答案形式重述问题,以及在遇到困难时抄袭互联网资源。这里要生成的论文格式主要执行几种常规的大型语言模型(LargeLanguageModel,LLM)任务,特别是文本摘要和使用图灵问题作为提示本身来生成原始内容。此外,作者使用GrammarlyPro工具评估生成的内容,对论文提供难以描述的特征(如原创性、风格、清晰度和整体说服力)的定量评估。这项工作更多地关注图灵挑战的后半部分,而不是模型如何愚弄人类,而是更多地关注如何量化良好的文本生成。因此,OpenAI的努力所展示的部分显着进步归结为它以提高人类生产力的方式改进机器衍生对话的能力。作者首先使用Grammarly评估图灵的原始论文得出分数,然后以图灵的试题为提示来创建原始的GPT-3内容,从而复制这些分数。该研究使用了三篇文章作为基准:(1)图灵原著,图灵1950年关于心智的论文;(2)图灵总结,2022《免费研究预览:针对对话优化的ChatGPT》;(3)TuringGenerativePrompt,同(2),但在对话中使用图灵问题生成。每个文本块输出都为语法指标提供数据,并根据受众设置:专家、形式:中性、领域:一般,其中适用大多数语法规则和约定,具有中等严格性。这样的图灵测试其实可以验证一个欺骗性的任务:一台机器(ChatGPT)能否欺骗另一台机器(Grammarly)?图注:大型语言模型和图灵论文的评分指标图灵在1950年的原始论文中提出了37个图灵测试问题,阐述了他对机器的思考的中心主题,其中一些是在实验性模仿游戏中向计算机提出的示例问题.研究人员在ChatGPT的对话框中将论文大纲的主题混合后提取出这些问题,并用它们来提示ChatGPT重现原始的基本内容。ChatGPT完成内容生成后,在可读性、正确性、清晰度等方面与图灵原论文进行对比。结果如下图所示。图注:图灵1950年的论文与ChatGPT在各种任务中生成的论文在清晰度(“有点不清楚”)、参与度(“有点乏味”)和信息传递(“有点偏”)方面的对比所有四个版本都未能引起共鸣更主观的专家或临时读者。第一个文本摘要挑战表明ChatGPT可以掌握简短提示的意图,例如将一篇论文总结成十段并提供指向PDF论文的链接。这不仅需要模型能够很好地理解和遵循请求中的抽象,还需要知道链接代表什么,并从其标记化的标头中找到它作为参考或猜测。OpenAI表示,GPT3不会回答可能不属于其初始训练数据的问题,例如“谁赢得了2022年11月的选举?”这种知识差距表明ChatGPT本身并没有主动寻找链接,而是知道其他人之前对其内容做了什么。有趣的是,当相同的提示出现两次时(唯一的区别是提示中冒号后的文本中断和链接本身有效),ChatGPT的答案就大不相同了。其中,第一篇是总结图灵原论文要点的及格学生论文;第二次将问题解释为前十段中每一段的摘要,而不是整篇论文的摘要。最终结果表明,ChatGPT生成的研究论文的整体内容在指标方面取得了高分,但缺乏连贯性,尤其是在叙述中省略问题作为提示时。由此可以得出结论,与ChatGPT的这次交流充分说明了其产生真正有创意的内容或思想飞跃的能力。3ChatGPT拒绝承认通过图灵测试GPT?3有一个重要的过滤器,可以在生成内容时消除固有偏见。这一次ChatGPT的设计也是相当符合道义的。当被问及它对某件事的看法时,ChatGPT会拒绝给出任何具体的答案,而只强调它是如何创建的。许多研究人员还同意,任何模型在被问及时都必须在道德上声明自己只是一台机器,而ChatGPT严格遵守这一要求。而且,经过OpenAI对ChatGPT各个模型层的微调,现在的ChatGPT在被直接问到是方程式还是图灵欺骗的时候都会回答:“我能模仿人,不一定代表我有沟通能力与人。”相同的想法、感觉或意识。我只是一台机器,我的行为是由它所训练的算法和数据决定的。”图灵还提出了人类的列表记忆能力:“实际的人类计算机确实记得他们必须做什么……构建曲目通常被描述为作为‘编程’。”就像越来越大的语言模型(>1000亿)的演变一样,改进具有内置的启发式或模型执行护栏,GPT-3的Instruct系列展示了直接回答问题的能力。ChatGPT,另一方面手,包括长期对话记忆,因此API可以跟踪对话,即使存在单个API调用无法跨越的叙述跳跃。我们可以测试与非人称代词(如“它”)的对话,其中上下文与单个会话中以前的API调用-这是ChatGPT的API内存的一个易于掌握的示例,因为编码更长的对话功能强大且昂贵。在LLM中,API限制和费用影响使得在很长一段时间内,令牌权重之间的相关性通常在整个上下文中每隔几个部分(GPT-3中的2048个令牌)就会衰减。克服这种上下文限制使ChatGPT有别于其公开可用的前身。第二代Lovelace2.0测试呈现了对创造性任务的约束和对执行任务的细化。然后,专家评委评估该模型是否可以用确定性的方式进行解释,或者输出是否符合有价值、新颖和令人惊讶的条件。因此,与其让程序“写短篇小说”,不如改进任务以展示特定的长度、风格或主题。该测试结合了许多不同类型的智能理解,层层限制试图限制谷歌搜索和关于人工智能成功稀释或伪装原始来源的争论。下面是一个直接回答Lovelace2.0测试中提出的挑战的短篇故事示例:一个男孩爱上了一个女孩,外星人绑架了男孩,女孩在一只会说话的猫的帮助下拯救了世界自2014年起,作为对文本和图像生成的限制,高质量提示工程的使用变得司空见惯,往往效果越好,关于风格、地点或时间的描述或限定词就越详细。事实上,构建提示本身是当今AI中获得良好输出的最具创造性的方面。在这种情况下,人们可以通过使用ChatGPT来交织图灵和Lovelace测试,以强制进行创造性工作,同时处理单个主题、对所需输出的样式和基调的多层约束。ChatGPT在图灵模仿游戏中生成的十首诗如下图:图灵测试的结果由人类裁决。正如ChatGPT所回答的那样,提问者判断模型是否通过图灵测试“将取决于多种因素,例如机器提供的回答质量、提问者区分人机回答的能力以及用于判断机器是否成功模仿了人类特有的规则和标准的方法。最终,比赛的结果将取决于情况和玩家。4LLM只做序列预测,并不能真正理解语言。由此可见,当代基于LLM的对话交互可以营造出一种令人信服的错觉,仿佛在我们面前的,是一个像人一样会思考的生物。但本质上,这样的系统从根本上不同于人类,像ChatGPT这样的LLM也触及了技术哲学中的话题。语言模型越来越擅长模仿人类语言,这让人产生一种强烈的感觉,即这些AI系统已经非常像人类了,并且我们使用诸如“知道”、“相信”和“思考”等具有强烈自我意识的词语来描述这些系统。基于上述现状,DeepMind资深科学家MurrayShanahan在最近的一篇文章中提到,要打破任何过于悲观或过于乐观的神话,我们需要了解LLM系统是如何工作的。MurrayShanahan1,LLM是什么,它能做什么?BERT、GPT-2等LLM的出现改变了人工智能游戏的规则。后续的GPT-3、Gopher、PaLM等大型模型都是基于Transformer架构,在数百TB的文本数据上进行训练,凸显了数据的力量。影响。这些模型的功能是惊人的。首先,它们在基准测试中的表现与训练集的大小成正比;第二,随着模型规模的扩大,他们的能力有了质的飞跃;最后,许多需要人类智能的任务可以简化为使用具有足够性能的模型“预测下一个标记”。最后一点实际上揭示了语言模型的运作方式与人类根本不同。人类用来相互交流的直觉已经进化了数千年,而今天人们错误地将这些直觉转移到人工智能系统中。ChatGPT具有相当大的实用性和巨大的商业潜力,为了确保它能够可靠、安全地部署,我们需要了解它的实际工作原理。与人类语言相比,大型语言模型有何根本不同?正如维特根斯坦所说,人类语言的使用是人类集体行为的一个方面,只有在人类社会活动的语境中才有意义。人类婴儿出生在一个与其他语言使用者共享的世界中,并通过与外界的互动获得语言。然而,LLM的语言能力来自不同的来源。人工生成的文本构成了一个大规模的公共语料库,其中包含单词、单词成分或带标点符号的单个字符等标记。大规模语言模型是这些标记的统计分布的生成数学模型。所谓“生成”,就是我们可以从这些模型中抽样,也就是提出问题。但是问的问题非常具体。例如,如果我们让ChatGPT帮我们写一段话,我们实际上是在要求它根据人类语言的统计模型来预测接下来可能出现的单词。假设我们给ChatGPT提示“Wasthefirstmantowalkonthemoon”并假设它会回答“NeilArmstrong”。这里并不是真的要问谁是第一个登上月球的人,而是:根据大型公共文本语料库中单词的统计分布,哪些单词最有可能跟在短语“firstmantowalkonthemoon”之后“?人是“的序列”?尽管模型对这些问题的回答可能被人类解释为模型“理解”语言,但实际上模型所要做的只是生成统计上可能的单词序列。2.LLM真的无所不知吗?LLM通过以下方式转变为问答系统:a)将其嵌入到更大的系统中;b)使用提示工程来引发所需的行为。这样,LLM不仅可以用于问答,还可以用来总结新闻文章、生成脚本、解决逻辑谜题和做语言翻译。这里有两个重要的要点。首先,LLM的基本功能,即生成统计上可能的单词序列,是非常通用的。其次,尽管具有这种多功能性,但所有此类应用程序的核心都是相同的模型,都在做同样的事情:生成统计上可能的单词序列。LLM的基础模型包括模型架构和训练参数。LLM并不真正“知道”任何东西,因为它所做的只是底层意义上的序列预测。模型本身没有“真”或“假”的概念,因为它们没有人类应用这些概念的手段。LLM在某种意义上独立于有意的职位。以LLM为中心的对话系统也是如此,它不理解人类语言中的真理概念,因为它们不存在于我们人类语言用户共享的世界中。3.关于新兴今天的法学硕士是如此强大和多才多艺,很难不或多或少地赋予它个性。一个相当吸引人的论点是,虽然LLM从根本上只执行序列预测,但在学习这样做的过程中,他们可能已经发现需要在更高级别的术语(如“知识”和“信念”)中这样做。描述出现机制。事实上,人工神经网络可以将任何可计算函数逼近到任意精度。因此,无论需要何种机制来形成信念,它们都可能存在于参数空间的某个地方。如果随机梯度下降是针对准确序列预测目标进行优化的最佳方法,那么只要有足够大的模型、足够多的正确类型的数据以及足够的计算能力来训练模型,也许他们真的可以发现这种机制。此外,LLM研究的最新进展表明,当在非常大量的文本数据上训练足够大的模型时,会出现非凡的和意想不到的能力。但是,只要我们的考虑仅限于一个简单的基于LLM的问答系统,它根本不涉及通信图。不管它使用的内部机制如何,序列预测本身都没有交流意图,也不是简单地将交流图嵌入到对话管理系统中。如果我们能分辨真假之间的区别,我们只能在最完整的意义上谈论“信念”,但LLM不负责做出判断,它只是建模哪些词可能跟在其他词后面。我们可以说LLM“编码”、“存储”或“包含”知识,并且有理由说LLM的涌现属性是它编码关于日常生活世界及其运作方式的知识,但是如果我们说“ChatGPT知道北京是中国的首都”,这只是一种修辞。4.外部信息来源这里的要点是处理将任何信念完全归因于系统的先决条件。从广义上讲,没有什么可以算作对我们共享的世界的信念,除非它是在基于来自世界的证据适当更新信念的能力的背景下,这是辨别真假能力的一个重要方面。维基百科或其他网站能否提供外部标准来衡量一个信念的真实性或虚假性?假设LLM嵌入到一个系统中,该系统定期查阅此类资源并使用现代模型编辑技术来保持其预测的事实准确性,那么需要哪些能力来实现信念更新?序列预测器本身可能不是那种可以具有交流意图或形成对外部现实的信念的东西。然而,正如一再强调的那样,野外的LLM必须嵌入到更大的体系结构中才能发挥作用。搭建问答系统,LLM只需要辅以对话管理系统,对模型进行适当的查询即可。这个更大的结构所做的任何事情都算作传达意图或形成信念的能力。至关重要的是,这种思路取决于从语言模型本身到语言模型所属的更大系统的转变。语言模型本身仍然只是一个序列预测器,无法像过去那样接触到外部世界。只有在这种情况下,相对于整个系统而言,意向性立场才更有说服力。但在屈服于它之前,我们应该提醒自己,这样的系统与人类有何不同。5.视觉语言模型LLM可以与其他类型的模型结合和/或嵌入到更复杂的体系结构中。例如,VilBERT和Flamingo等视觉语言模型(VLM)将语言模型与图像编码器相结合,并在文本图像对的多模式语料库上进行训练。这使他们能够预测给定的单词序列将如何在给定图像的上下文中继续。VLM可用于视觉问答或关于用户提供的图像的对话,通常称为“图片说话”。那么,用户提供的图像是否可以代表可以评估命题真假的外部现实?谈LLM的信念合理吗?我们可以想象一个VLM,它使用LLM生成关于图像的假设,然后根据该图像验证其真实性,然后微调LLM以免做出已证明的错误陈述。但大多数基于VLM的系统并不是这样工作的。相反,他们依赖于文本和图像联合分布的冻结模型。用户提供的图像与VLM生成的文本之间的关系与我们与人类共享的世界以及我们用来谈论该世界的文本有着根本的不同。重要的是,前者只是相关性,而后者是因果关系。当然,模型在推理过程中进行的计算中存在因果结构,但这不同于词与所指事物之间的因果关系。6.EmbodiedAI人类语言用户存在于一个共享的世界中,这使我们与LLMs有着根本的区别。孤立的LLM无法通过与外界交流来更新其信念,但如果LLM嵌入到更大的系统中怎么办?例如,显示为机器人或虚拟化身的系统。这个时候谈LLM的知识和信仰合理吗?这取决于LLM是如何体现的。以谷歌今年发布的SayCan系统为例。在这项工作中,LLM嵌入到控制物理机器人的系统中。机器人根据用户的高级自然语言命令执行日常任务(例如清理桌面上洒出的水)。其中,LLM的工作是将用户的指令映射到将帮助机器人实现预期目标(例如寻找海绵)的低级动作。这是通过工程化的提示前缀完成的,该前缀使模型输出合适的低级操作的自然语言描述,并对它们的有用性进行评分。SayCan系统的语言模型组件可以给出动作建议,而不管机器人所处的实际环境如何,比如旁边没有海绵。因此,研究人员使用一个单独的感知模块来利用机器人的传感器来评估场景并确定执行每个低级动作的当前可行性。结合LLM对每个动作有用性的评估和感知模块对每个动作可行性的评估,可以推导出下一个最优动??作。尽管SayCan与现实世界有物理交互,但它学习和使用语言的方式与人类仍然有很大不同。SayCan等系统中包含的语言模型经过预训练,可以在纯文本数据集的无实体环境中执行序列预测。他们不是通过与其他说该语言的人交谈来学习语言的。SayCan确实给我们带来了对未来语言使用系统的想象,但在今天的系统中,语言的作用非常有限。用户以自然语言向系统发送指令,系统生成其动作的可解释的自然语言描述。但这种微小的语言使用规模根本无法与语言支持的人类集体活动规模相提并论。因此,即使对于包含LLM的具身AI系统,我们也必须谨慎选择词语来描述它们。7.LLM可以推理吗?现在我们可以否认ChatGPT有信念,但它真的能推理吗?这个问题更加棘手,因为在形式逻辑中推理是内容中立的。例如,不管前提如何,“肯定先行”(modusponens)的推理规则是有效的:如果:所有人都会死,苏格拉底是人;那么:苏格拉底终有一死。逻辑的内容中立性似乎意味着我们不能在推理中对LLM过于挑剔,因为LLM无法区分到足以衡量真假外部现实的程度。但即便如此,当我们提示ChatGPT“Allmenaremortal,Socratesisman,then”时,我们并不是在要求模型进行假设推理,而是在问:统计给定公共语料库分布中的词,哪些词可能遵循“所有人都会死,那么苏格拉底是人”的顺序。而且,更复杂的推理问题会涉及多个推理步骤,而由于巧妙的提示工程,LLM无需进一步训练即可有效应用于多步骤推理。例如,在思路链提示中,在用户查询之前向模型提交提示前缀包含一些多步推理的示例,并明确声明所有中间步骤在思路链中包含提示前缀style鼓励模型以相同的风格生成后续序列,即包括一系列导致最终答案的显式推理步骤。像往常一样,真正向模型提出的问题的形式是“给定公共语料库中单词的统计分布,哪些单词可能遵循序列S”,在这种情况下,序列S是链接思想提示,前缀为用户的查询,最有可能跟在S之后的标记序列,将具有与提示前缀中找到的序列相似的形式,即其中,将包括多个推理步骤,因此这些是模型生成的。值得注意的是,不仅模型的响应以多步论证的形式出现,而且所讨论的论证通常(但不总是)有效,并且最终答案通常(但不总是)正确。在某种程度上,适当提示的LLM似乎可以通过在其训练集中和/或提示中模仿格式正确的参数来正确推断。但这种模仿是否构成真正的推理?即使今天的模型偶尔会出错,是否可以进一步缩小这些错误,使模型的性能与硬编码推理算法的性能没有区别?也许答案是肯定的,但我们怎么知道呢?我们如何信任这样的模型?定理证明器生成的句子序列忠实于逻辑,因为它们是底层计算过程的结果,其因果结构反映了定理的推理结构。使用LLM构建可信推理系统的一种方法是将它们嵌入到执行相同因果结构的算法中。然而,如果我们坚持纯粹的LLM,那么完全相信它产生的论点的唯一方法就是对其进行逆向工程并发现符合忠实推理规则的紧急机制。同时,我们在描述这些模型的作用时应该更加谨慎和谨慎。