当前位置: 首页 > 科技观察

ChatGPT之后去哪里?LeCun新作:全面概述下一代“增强型语言模型”

时间:2023-03-16 15:12:38 科技观察

ChatGPT可以说是点燃了语言模型的一把火。NLP从业者正在反思和总结未来的研究方向。最近图灵奖获得者YannLeCun与人合着了一篇关于“增强语言模型”的评论,回顾了语言模型结合推理能力和工具使用能力的工作,并得出结论认为这个新的研究方向有潜力解决传统语言模型的局限性语言模型,例如可解释性、一致性和可扩展性问题。论文链接:https://arxiv.org/abs/2302.07842在增强的语言模型中,推理意味着将复杂的任务分解为更简单的子任务。工具包括调用外部模块(例如代码解释器、计算器等),LM可以通过启发式或通过演示学习单独或组合利用这些增强。在遵循标准缺失标记预测目标的同时,增强的LM可以使用各种可能是非参数的外部模块来扩展上下文处理能力,不局限于纯语言建模范式,可以称为增强语言模型(ALMs,Augmented语言模型)。缺少标记预测目标允许ALM学习推理、使用工具甚至行动,同时仍然能够执行标准的自然语言任务,甚至在几个基准数据集上的表现优于大多数传统LM。增强型语言模型大型语言模型(LLM)推动了自然语言处理的巨大进步,并逐渐成为数百万用户使用的产品的技术核心,包括编码助手Copilot、Google的搜索引擎以及最近发布的ChatGPT。将记忆与组合能力相结合,使LLM能够以前所未有的性能水平执行各种任务,例如语言理解或有条件和无条件的文本生成,从而为更广泛的人机交互开辟了一条实用途径。然而,LLM目前的发展仍然受到诸多限制,阻碍了其在更广泛的应用场景中的部署。例如,LLM经常提供非事实但似是而非的预测,也称为幻觉,许多错误实际上是完全可以避免的,包括算术题和推理链中的小错误。此外,LLM的许多突破性能力似乎随着可训练参数的数量的规模而出现,并且之前的研究人员已经表明,一旦模型达到一定规模,LLM就能够实现少量提示来完成一些BIG-bench任务。尽管最近的工作已经训练了一些较小的LM,同时保留了大型模型的一些功能,但当前LLM的大小和数据要求对于训练和维护来说是不切实际的:大型模型的持续学习仍然是一个开放的研究问题。Meta研究人员认为,这些问题源于LLMs的一个根本缺陷:训练过程是给定一个参数模型和一个有限的上下文(通常是前后n个词),然后进行统计语言建模。虽然近年来,由于软硬件的发展,上下文大小n一直在增长,但大多数模型仍然使用比较小的上下文大小,所以模型的巨大规模是存储未出现的知识的必要条件在上下文中。它对下游任务也很重要。因此,越来越多的研究趋势以略微偏离上述纯统计语言建模范例的方式来解决这些问题。例如,有一项工作通过添加从“从相关外部文档中提取的信息”计算的相关性来规避LLM上下文大小有限的问题。通过为LM配备检索模块以从数据库中检索给定上下文中的此类文档,可以实现匹配更大规模LM的某些功能,同时具有更少的参数。请注意,生成的模型现在是非参数的,因为它可以查询外部数据源。更一般地说,LM还可以通过推理策略改进其上下文,以在生成答案之前生成更多相关上下文,从而通过更多计算提高性能。另一种策略是允许LM利用外部工具使用LM权重中未包含的重要缺失信息来扩充当前上下文。尽管这些工作中的大多数旨在减轻LM的上述缺点,但可以立即想象,更系统地使用推理和工具增强LM可能会导致更强大的代理。研究人员将这些模型统称为增强语言模型(ALM)。随着这种趋势的加速,跟踪和理解大量模型变得越来越困难,需要对ALM的工作进行分类并定义有时用于不同目的的技术术语。推理在ALM的上下文中,推理是将潜在的复杂任务分解为更简单的子任务,LM可以自行或使用工具更轻松地解决这些任务。分解子任务的方式多种多样,例如递归或迭代,某种意义上的推理类似于LeCun2022年论文“RoutestoAutonomousMachineIntelligence”中定义的方案。论文链接:https://openreview.net/pdf?id=BZ5a1r-kVsf在本次调查中,推理指的是LM中提高推理能力的各种策略,例如使用少量的例子进行逐步推理.尽管还没有完全理解LM是否真的在推断,或者只是生成一个更大的上下文来增加正确预测缺失标记的可能性。考虑到当前的技术水平,推理可能是一个被过度使用的术语,但该术语在社区中被广泛使用。在ALM的上下文中,更实用的推理定义是在得出提示答案之前为模型提供更多计算步骤。工具对于ALM,工具是一个外部模块,通常使用规则或特殊标记调用,其输出包含在ALM的上下文中。可以使用工具来收集外部信息,或者对虚拟或物理世界产生影响(一般被ALM感知):例如可以使用文件检索器作为获取外部信息的工具,或者可以使用机械臂来感知外部影响。可以在训练时或推理时调用工具。更一般地说,模型需要学习与工具交互,包括学习调用其API行为。对于ALM,调用对虚拟或物理世界有影响的工具并观察其结果,通常将其合并到ALM的当前上下文中。本次调查中介绍的一些工作讨论了通过LM搜索网络或机械臂操作。在一个稍微被误用的术语中,对工具的ALM调用有时被表示为一个动作,即使它对外界没有影响。为什么要同时讨论推理和工具?LM中推理和工具的结合应该允许在没有启发式的情况下解决范围广泛的复杂任务,即具有更好的泛化能力。通常,推理有助于LM将给定问题分解为可能更简单的子任务,而工具有助于正确执行每个步骤,例如从数学运算中获取结果。换句话说,推理是LM组合不同工具来解决复杂任务的一种方式,工具是一种避免推理失败并有效分解的方式。两者应该互惠互利,推理和工具可以放在同一个模块中,因为它们都增强了LM的上下文以更好地预测丢失的标记,尽管方式不同。为什么要同时谈论工具和行动?LM可以以相同的方式调用用于收集附加信息的工具和用于影响虚拟或物理世界的工具。例如,输出python代码以解决数学运算的LM与输出python代码以操纵机械臂的LM之间似乎没有什么区别。这篇评论中讨论的一些作品已经在使用对虚拟或物理世界产生影响的LM,在这种观点下,我们可以说LM具有采取行动的潜力,并期望在LM作为自治代理的方向上取得重大进展。分类方法Researchers将综述中介绍的工作分解为以上三个维度,分别介绍,最后讨论其他维度的相关工作。对于读者,应该记得其中许多技术最初是在LM之外的上下文中介绍的,如有必要,请尽可能查看所提及论文和相关工作的介绍。最后,虽然审查侧重于LLM,但并非所有相关工作都采用大型模型,而是侧重于LM的正确性。