当前位置: 首页 > 科技观察

符号主义学者十年深度探讨:如何理性看待ChatGPT?

时间:2023-03-18 14:16:40 科技观察

近十年来,在各种深度学习模型的支持下,联结主义者借助大数据和高算力,在人工智能赛道上率先进行符号化。但每次有新的大型深度学习模型发布,比如最近很火的ChatGPT,在对其强大的性能惊叹和赞叹之后,都会有对研究方法本身的热烈讨论,模型本身的漏洞和缺陷也会也涌现。近日,北冥实验室钱小义博士作为一名坚守符号流派十年的科学家和企业家,发表了一篇相对冷静客观的ChatGPT模型评测。总的来说,我们认为ChatGPT是一个里程碑事件。预训练模型在一年前就开始显现出强大的效果,这次又上了一个新台阶,受到了更多人的关注;在这个里程碑之后,许多与人类自然语言相关的工作模型将开始发生变化,甚至被一大批人所关注。机器更换。任何技术都不是一蹴而就的,科学家应该对它的潜力更加敏感,而不是看到它的缺点。Symbolism&Connectionism的边界我们团队这次特别关注ChatGPT,并不是因为大众看到了惊人的效果,因为我们在技术层面还是可以理解很多看似惊人的效果。真正震撼我们感官的是,它的一些任务突破了符号流派和神经流派的界限——逻辑能力,ChatGPT似乎体现在自代码和求值代码等几项任务中。我们一直认为,符号流派擅长再现人类强大逻辑的智慧,比如如何解决问题、分析问题原因、创造工具等;而联结主义的本质是一种统计算法,用来从样本中找到平滑的规则,比如通过足够多的人类对话找到下一句要说什么的规则;通过描述性文字找到相应的图像识别和生成规则……我们可以了解这些能力,我们可以使用更大的模型、更优质的数据、强化学习循环增强来变得非常出色。我们认为,人类同时具有符号和神经技术路径的特征,如所有反思性认知过程、知识学习和应用过程、大量的反思性思维、行为、表达模式、反思性动机和情绪。易于在基于符号表示的系统中解释和重现。当你看到足够多的外国面孔时,你就会有识别外国面孔的能力,而且你也无法解释为什么;看完第一部电视剧,自然就会有模仿演员说话的能力;在经历了足够多的谈话后不假思索地聊天的能力,这些都是神经的特征。我们可以把逻辑性强的部分比作长骨头,把“非逻辑性的法则控制能力”比作长肉。符号“长骷髅”的能力很难“长出肉”,“长出肉”的能力也很难“长出骨骼”。就像我们陪伴AI构建过程一样,符号系统善于把握对话者特定维度的信息,分析其背后的意图,推断相关事件,给出准确建议,但不善于创造流畅和自然对话。我们也看到,以GPT为代表的对话生成模型虽然可以创造流畅的对话,但它利用长时记忆创造连贯的陪伴,产生合理的情感动机,完成具有一定深度的逻辑推理,给出分析建议。这些方面的实现是困难的。大模型的“大”不是优势,而是统计算法试图从表层数据中掌握一些内在的强逻辑主导规律所付出的代价,体现了符号与神经的界限。在深入了解ChatGPT的原理后,我们发现它只是将比较简单的逻辑运算作为一种常规的训练生成,并没有突破原有统计算法的范畴——即系统的消耗还是会减少。随着逻辑任务深度的增加,它呈几何级数增长。但是ChatGPT为什么能够突破原有大模型的限制呢?ChatGPT如何突破常见大模型的技术限制让我们用非技术语言解释一下ChatGPT如何突破其他大模型限制的原理。GPT3一出现,就展现出了超越其他大模型的体验。这与自监督有关,即数据的自我标记。仍然以对话生成为例:一个大模型通过海量数据训练掌握了60轮对话和下一句话的表达规律。为什么我们需要这么多数据?为什么人类在看完电视剧后可以模仿演员的讲话?因为人类并不是以前几轮的对话作为输入来把握下一句该说什么的规则,而是在主观对话的过程中形成对语境的理解:说话者具有人格特质,当前是什么样的情绪、动机、联想等,获得什么样的知识,再加上前几轮的对话,掌握下一句该说什么的规律。我们可以想象,如果大模型先识别出对话的上下文元素,然后用它来生成下一句的表达规则,与原始对话相比,达到同样效果的数据需求可以大大降低。因此,自监督做得如何,是影响大模型“模型效率”的重要因素。检验大型模型服务在训练时是否自标注了某类上下文信息,可以通过检验对话生成是否对这种上下文信息敏感(生成的对话是否反映了对这种上下文信息的考虑)来判断。手动编写所需的输出是发挥作用的第二点。ChatGPT在几类任务中使用人工编写的输出来微调GPT3.5的大型模型,该模型已经学习了对话生成的一般规律。这就是预训练模型的精神——一个封闭场景的对话规则实际上可能反映了99%以上的人类对话生成的一般规则,而场景特定的规则只有不到1%。因此,可以使用训练有素的掌握人类对话一般规则的大模型再加上针对封闭场景额外训练小模型来达到效果,而用于训练场景特定规则的样本可以很小的。下一个起作用的机制是ChatGPT结合了强化学习。整个过程大致是这样的:初始准备:一个预训练模型(GPT-3.5),一组训练有素的laber,一系列提示(instructionsorquestions,从大量用户的使用过程中收集而来和实验室的设计)。Step1:随机抽取大量提示,数据人员(laber)根据提示进行标准化回复。数据人员可以将提示输入到GPT-3.5中,参考模型的输出,协助其给出规范的答案。数据可以这样收集,大量的数据构成一个数据集。基于该数据集,通过监督学习的方式对GPT-3.5模型进行微调,微调后的模型暂称为GPT-3.X。Step2:随机采样一些提示(大部分是在step1中采样的),通过GPT-3.X为每个提示生成K个答案(K>=2)。Laber对K个答案进行排序,大量排序后的对比数据可以形成一个数据集,基于该数据集可以训练评分模型。Step3:使用强化学习策略PPO迭代更新GPT-3.X和评分模型,最终得到策略模型。策略模型的参数由GPT-3.X初始化,对step1和step2中一些没有采样的提示进行采样,通过策略模型生成输出,输出由打分模型打分。根据打分产生的策略梯度,更新策略模型的参数,得到能力更强的策略模型。让更强的策略模型参与step2,通过标签排序和标注得到新的数据集,更新得到更合理的评分模型。更新后的评分模型参与step3,会得到更新后的策略模型。迭代执行step2和step3,最终的策略模型为ChatGPT。如果你不熟悉上面的语言,这里打个通俗易懂的比喻:这好比请ChatGPT学武术,人的反应就是高手的套路,GPT3。评估者,告诉ChatGPT谁在每场比赛中表现更好。所以ChatGPT可以在GPT3.5的基础上,在人类大师与GPT3对比的第一眼观察中,在人类大师的方向上有所改进。在大师对比中,打分神经网络再次告诉它差距在哪里,这样它才能再次变得更好。这个和传统的神经网络有什么区别?传统的神经网络是直接让神经网络模仿人类的高手,而这种新模式是让神经网络掌握已经很好的武术爱好者和高手之间的区别,从而在方向上做出细微的改变在现有基础上的人类主人。调整并不断改进。从上面的原理可以看出,这种方式生成的大模型是以人工标注样本为性能极限的。也就是说,它只是最大限度地掌握了人类标记样本的反应模式,而没有创造新的反应模式的能力;其次,作为一种统计类型的算法,样本的好坏会影响模型输出的准确性,这是ChatGPT介入搜索咨询场景的致命缺陷。同类健康咨询需求严谨,不适合此类模式独立完成。ChatGPT体现的代码能力和代码评估能力来自于github上大量的代码、代码描述注释、修改记录,这些在统计算法的范围内。ChatGPT发出的一个很好的信号是,我们确实可以用更多的“以人为中心”、“强化学习”等思想来提高“模型效率”。“大”不再是与模型能力挂钩的唯一指标。例如,具有13亿个参数的InstructGPT优于具有175亿个参数的GPT-3。尽管如此,由于训练的计算资源消耗只是大模型的门槛之一,其次是高质量和大规模的数据,我们认为早期的业务结构仍然是:大工厂为大模型提供基础设施,以及基于这个的小工厂非常有用。而成为巨头的小厂,也会培养自己的大模型。符号与神经的结合我们认为,从众与神经结合的潜力体现在两点:练“肉”练“骨”,用“肉”练“骨”。如果表面样本中包含很强的逻辑上下文(骨骼),比如之前对话训练的例子,上下文元素就是骨骼,那么简单地从表面样本中训练包含骨骼的规则是昂贵的,体现在需求上样本的和更高模型训练的成本,即大模型的“大”。如果我们使用符号系统来生成上下文,并将其作为神经网络的样本输入,则相当于在强逻辑识别的背景条件上寻找规律,在“骨头”上训练“肉”。如果以这种方式训练大型模型,其输出对强逻辑条件很敏感。例如,在对话生成任务中,我们在对话中输入双方当前的情绪、动机、相关知识和相关事件。大模型生成的对话能够以一定的概率反映出对这些上下文信息的反应。这是用强逻辑“骨头”上的“肉”。此前,我们在开发陪伴级AI时,遇到了Symbol无法打造流畅对话的问题。如果用户不愿意和AI对话,AI背后所有的逻辑和情感能力都无法展现,持续优化和迭代的条件也不具备。我们使用类似上面和预训练模型的组合来解决对话的流畅性。从大模型的角度来看,用简单的大模型创建AI缺乏完整性和立体感。“整体性”主要体现在对话生成是否考虑上下文相关的长时记忆。比如前一天AI和用户的聊天中,用户感冒了,去了医院,出现了各种症状,持续了多长时间……;第二天,该用户突然表示,“我喉咙痛”。在一个简单的大型模型中,AI会用上下文中的内容进行回应,会表达“你喉咙为什么疼?”、“你去医院了吗?”……这些表情立马与长期的矛盾内存,反映内存不一致。通过与符号系统的结合,AI可以使用联想,从“用户第二天喉咙痛”到“用户昨天感冒了”到“用户去过医院”“用户的其他”symptoms”……把这些信息转化为语言,这样就可以利用大模型的上下文一致性能力来体现长期记忆的一致性。“立体感”体现在AI是否有执念。你会不会像人一样执着于自己的情绪、动机、观念。一个简单的大模型创建的AI,在社交时会随机提醒一个人少喝点酒,结合符号系统,会因为长时记忆知道用户的肝脏不好,结合肝脏不好喝的常识,会产生强烈的连续信息,阻止使用者喝水。建议,并跟进用户社交后是否喝酒,用户缺乏自律会影响情绪,进而影响后续的对话,这就是立体感的体现。大模型是通用人工智能吗?从预训练模型的实现机制来看,并没有突破统计算法“掌握样本规律”的能力范畴。逻辑错觉和解决技巧。一个纯粹的预训练模型将不具备人类的创造力、深入的逻辑推理和解决复杂任务的能力。因此,预训练模型因其对特定场景的低成本迁移而具有一定的通用性,但它不具备人类“通过有限的信息概括上层千变万化的智能表象”的通用智能。底层智能机制”。接下来说说“涌现”。在大型模型的研究中,研究人员会发现,当模型参数规模和数据规模超过一定的临界值时,一些能力指标会迅速上升,呈现出涌现效应。事实上,任何具有抽象学习能力的系统都会表现出“涌现”。这与抽象类操作的本质有关——“不执着于个别样本或猜想的正确性,而是基于整体样本或猜想的统计正确性”。因此,当样本量足够大,模型能够支持发现样本的细化规律时,某种能力就会突然形成。在符号思维项目中,我们看到符号AI也会像人类儿童的语言习得一样,在语言学习过程中“出现”。听力和阅读达到一定程度后,听力和阅读理解能力和口语能力都会突飞猛进。总之,我们把涌现看成一种现象是可以的,但是把机制不明的系统功能的所有突变都解释为涌现,并期望人类的整体智能出现在一个规模的规模上,这不是问题。简单算法达到一定程度。严谨的科学态度。通用人工智能(AI)的概念几乎是随着计算机的出现而出现的。当时,这是一个简单的想法。将人类智能移植到计算机中是人工智能的起点。最早的人工智能概念是指“通用人工智能”。人类的智能模型就是通用智能,这种移植到计算机上的智能模型就是通用人工智能。此后出现了很多试图重现人类智能机制的学派,但这些学派都没有产生突出的成果,以至于Deepmind的杰出科学家、强化学习的创始人RichSutton强烈表达了一个观点观点:从过去70年的人工智能研究中可以汲取的最大教训是:为了寻求短期行动,研究人员更愿意使用人类的经验和领域知识(模仿人类机制),而在从长远来看,可扩展的通用计算方法最终是有效的。当今大模型的卓越成就证明了他“算法主义”主张的正确性,但并不意味着“仿造造人”创造智能体的路径就一定是错误的。那么为什么以往的仿人流派相继受挫呢?这关系到人类智能核心的完整性。简单地说,人类语言、认知、情感决策、学习能力等组成的子系统在大多数任务的实现中相互支持,没有一个子系统可以独立运行。作为一个高度集成的系统,上层的表象来自于许多底层机制的协同作用。只要有一处有瑕疵,就会影响到这地表级效果的出现。就像人体一样,它也是一个高度复杂的系统。健康的人和生病的人可能会有细微的差别,但是这种细微的病理差异会抑制一个人各方面的功能。同样,对于一般的人工智能来说,前99步的作用可能非常有限。当我们完成最后一块拼图的时候,应该在前99步的函数就会出现。之前的流派从自己的角度看到了人类整体智能的一部分,在模仿人类方面取得了一定的成果,但这只是整体系统能够释放的能量的一小部分。过程智能与人类文明人类的每一项局部智能都已经或正在被计算机远远超越,但即使所有局部智能都被计算机超越,我们仍然可以断言只有人类才能创造文明,计算机只是工具。为什么?因为创造文明的背后是人类各种智能活动的过程,也就是说,人类文明来源于“过程智能”。这是目前很大程度上被忽视的一个方向。“认知过程”不是一项任务,它是许多任务在一个过程中的组织。例如,如果人工智能想要治愈患者的症状,它就是一个“目标解决”的任务。首先需要转化为归因解决方案,这是一个认知任务。找到可能的原因后,判断是否发生了可能的疾病就变成了“解决特定事件”的任务。该任务将继续分解并转移到其他任务。如果过程中缺少知识,就会变成“解决知识”的任务。可以通过查询、搜索、阅读获取已有知识,也可以使用“统计认知”;统计认知发现相关性后,可以进一步洞察其背后的因果链条,从而实现更好的干预。知识的缺乏变成了知识的解决。为了验证猜想,需要设计实验来解决特定事件的发生……有了因果链之后,就可以尝试再次达到目标,介入因果链,把原来的目标变成创建、终止和预防。事件在因果链中的发生和维持,回归到一种“目标解决”的过程……从这个角度来说,像ChatGPT这样的技术是用来实现任务的,而半符号化的通用人工智能框架就是将这些结合起来组织部分任务能力以支持类人智能活动过程。通用人工智能是“人”的本体。它可以使用内化的能力和外化的工具来完成任务,并组织这些任务以支持智能活动的过程。人类具有很强的羊群效应,高产期的流派会吸引大部分研究者。很少能独立反思一条技术路径的天然能力边界,独立寻找在宏观层面具有更大价值的研究方向。我们可以想象,如果能够在计算机上再现人类的整体智能,让机器能够支持自主探索认知、创造工具、解决问题和实现目标的过程,借助计算机的载体优势,整体人类的智能和过程智能,只有像以前一样被放大,才能真正释放出人工智能的能量,支撑人类文明走向新的高峰。作者简介钱小义博士,符号人工智能科学家,高级工程师,杭州市高层次人才,逻辑仿生框架早期探索者,M语言符号系统第一版创建者。北冥星谋创始人、CEO兼董事长。上海交通大学应用经济学博士,美国CGU德鲁克商学院金融工程硕士,浙江大学朱可桢学院丘成桐数学精英班数学与金融学双学士。在通用人工智能领域研究11年,带领团队进行工程实践7年。