当前位置: 首页 > 科技观察

斯坦福教授曼宁在AAAS特刊上发表文章:大模型成为突破口,期待通用人工智能

时间:2023-03-21 01:22:50 科技观察

NLP正在推动人工智能进入激动人心的新时代。目前人工智能领域最热门的方向是预训练大型模型。很多人认为,这项研究在通用人工智能领域已经初见成效。自然语言处理领域知名学者、斯坦福大学教授克里斯托弗·曼宁近日在美国艺术与科学院(AAAS)AI&Society特刊上发表题为《Human Language Understanding & Reasoning》的文章期刊,讨论语义,语言理解本质,展望大模型的未来。曼宁认为,随着NLP领域的技术突破,我们或许已经朝着通用人工智能(AGI)的方向迈出了坚定的一步。摘要在过去的十年中,简单的神经网络计算在自然语言处理方面取得了巨大而令人惊讶的突破,并在非常大的范围内成功复制并在大量数据上进行了训练。由此产生的预训练语言模型,如BERT和GPT-3,提供了强大的通用语言理解和生成基础,可以轻松适应许多理解、写作和推理任务。这些模型显示出更一般形式的人工智能的初步迹象,可能会在感知体验领域(而不仅仅是语言)产生强大的基础模型。NLP的四个时代当科学家想到人工智能时,大多数人首先想到的是建模或重建单个人脑的能力。然而,现代人类的智能远不止单个大脑的智能。人类语言非常强大,对我们这个物种产生了深远的影响,因为它为整个人类提供了一种将大脑联网的方式。人类可能并不比我们的黑猩猩或倭黑猩猩亲戚聪明多少。这些类人猿已被证明拥有许多人类智能的标志性技能,例如工具使用和计划。另外,他们的短期记忆甚至比我们的还要好。人类发明语言的时间可能一直是个谜,但相对可以确定的是,在地球生命漫长的进化史中,人类直到最近才发展出语言。原猿类、猴子和猿类的共同祖先可以追溯到大约6500万年前。人类大约在600万年前从黑猩猩中分裂出来,而人类语言一般被认为只有几十万年的历史。人类发展出语言后,交流的能力让智人迅速超越了其他生物,虽然我们不如大象强壮,速度不如猎豹。直到最近,人类才发明文字(可能只有5000年前),让知识可以跨越时空进行交流。在短短几千年的时间里,这种信息共享机制将我们从青铜时代带到了今天的智能手机。允许人类理性讨论和分发信息的高保真代码、复杂社会的文化演变以及现代技术背后的知识。语言的力量是人类社会智能的基础,在人工智能工具增强人类能力的未来世界中,语言将继续发挥重要作用。由于这些原因,自然语言处理(NLP)领域与人工智能的最早发展同时出现。事实上,机器翻译NLP问题的初步工作,包括1954年著名的Georgetown-IBM实验,实现了有史以来第一次机器翻译,略早于1956年“人工智能”一词的创造。在这篇论文中,我给出了一个自然语言历史处理的简要概述。然后,我描述了NLP最近通过使用在大量数据上训练的大型人工神经网络模型而取得的巨大发展。我追溯了使用这些技术构建有效的NLP系统所取得的巨大进步,并总结了关于这些模型取得的成就以及它们下一步可能走向何方的一些想法。迄今为止,自然语言处理的历史大致可以分为四个时代。第一个时代是从1950年到1969年。NLP研究从机器翻译研究开始。人们可以想象,翻译可以迅速建立在二战期间计算机破译密码的巨大成功之上。冷战双方的研究人员都在寻求开发可以转化其他国家科学成果的系统。然而在这个时代的开始,人们对人类语言、人工智能或机器学习的结构几乎一无所知。现在回想起来,当时可用的计算量和数据少得可怜。尽管第一个系统大肆宣传,但它们只提供了词级翻译查找和一些简单的、不是很有原则的、基于规则的机制来处理词形变化(inflection)和词序。第二个时代,从1970年到1992年,出现了一系列NLP演示系统,在处理人类语言的句法和引用等现象时表现出复杂性和深度。这些系统包括TerryWinograd的SHRDLU、BillWoods的LUNAR、RogerSchank的系统(例如SAM)、GaryHendrix的LIFER和DannyBobrow的GUS。这些是人们手工构建的基于规则的系统,但他们开始建模并使用人类语言理解的一些复杂性。有些系统甚至被部署用于数据库查询等任务。语言学和基于知识的人工智能正在快速推进,在这个时代的第二个十年,出现了不同于声明性和语言性知识及其过程处理的新一代手工构建系统,并受益于一系列更语言理论的现代发展。然而,我们的工作方向在1993年到2012年的第三个时代发生了显着变化。同时,数字文本变得丰富,最适用的方向是开发能够在大量自然文本上实现某种程度的语言理解的算法。语言内容,并利用文本的存在来帮助实现这种能力。这导致该领域围绕NLP的经验机器学习模型进行了根本性的重新定位,这一方向至今仍占主导地位。这一时期初期,我们的主要方法是掌握合理数量的在线文本——当时的文本集合一般在千万字以下——并从中提取某种模型数据,主要是通过计算特定的事实。例如,您可能会发现人们识别的事物类型在一个人的位置(如城市、城镇或堡垒)和隐喻概念(如想象力、注意力或本质)之间相当均衡。但计算单词只提供语言理解设备,早期从文本集合中学习语言结构的经验尝试并不成功。这导致该领域的许多人专注于构建带注释的语言资源,例如标记词、文本中人名或公司名称的实例,或者树库中句子的语法结构,然后使用监督机器学习技术构建模型,该模型可以在运行时在新的文本片段上生成类似的标签。从2013年到现在,我们拓展了第三个时代的实证方向,但是由于引入了深度学习/人工神经网络方法,工作发生了翻天覆地的变化。在新方法中,单词和句子由(数十或数千维)实值向量空间中的位置表示,意义或句法上的相似性由该空间中的接近度表示。从2013年到2018年,深度学习为构建高性能模型提供了一种更强大的方法,可以更轻松地模拟更远的上下文和模型,这些模型可以更好地泛化到具有相似含义或用语的单词,因为它们可以利用向量空间中的接近度而不是依赖关于符号的身份(例如单词形式或词性)。但是,在构建监督机器学习模型以执行特定分析任务时,该方法没有改变。2018年,一切都变了,超大规模自监督神经网络学习的第一个重大成功是在NLP领域。在这种方法中,系统可以通过接触大量文本(如今通常有数十亿个单词)来学习大量语言和世界知识。一种自我监督的方式是让AI系统从文本中创建自己的预测挑战,例如在给定先前单词的情况下不断识别文本中的每个“下一个单词”,或者在文本中填充模糊的单词或短语文本。通过数十亿次重复此类预测任务并从错误中学习,模型在下一次给定类似的文本上下文时会做得更好,积累关于语言和世界的一般知识,然后可以将其部署到更多人类感兴趣的任务中,例如如问答或文本分类。为什么大型模型是一个突破事后看来,大规模自监督学习方法的发展很可能被视为一场革命,第三个时代可能会延续到2017年。预训练自监督方法的影响是一个突破:我们现在可以训练大量未标记的人类语言材料,产生一个大型预训练模型,可以通过微调或提示轻松调整,在各种自然语言理解中提供强大的结果和生成任务。现在,NLP的进步和关注呈爆炸式增长。有一种乐观的感觉,我们开始看到具有一定程度通用智能的知识注入系统的出现。我无法在此全面描述目前占主导地位的人类语言神经网络模型。一般来说,这些模型通过实数向量表示一切,并且能够通过从一些预测任务反向传播到单词表示中的错误(归结为做微积分)。自2018年以来,NLP应用的主要神经网络模型一直是Transformer架构神经网络。Transformer是一个比人类几十年前探索的单词序列的简单神经网络更复杂的模型。其中一个主要思想是注意力机制——通过该机制,一个位置的表示被计算为其他位置表示的函数。加权组合。Transformer模型中一个常见的自我监督目标是屏蔽文本中偶尔出现的单词,其中模型计算过去存在于间隙中的单词。它通过从每个单词位置(包括掩码位置)计算一个表示该位置的查询、键和值的向量来实现这一点。该算法将某个位置的查询与每个位置的值进行比较,计算每个位置的注意力。以此为基础,计算所有位置的值的加权平均值。该操作在Transformer神经网络的每一层中重复多次,并通过全连接神经网络层进一步操作结果值,并使用归一化层和残差连接为每个单词生成一个新向量。整个过程重复多次,为Transformer神经网络提供额外的深度层。最后,掩码位置上方的表示应该捕获原始文本中的单词:例如,committee,如图1所示。通过Transformer神经网络的简单计算可以实现或学到什么并不明显,起初它更像是某种复杂的统计联想学习者。然而,借助像Transformer这样非常强大、灵活的超参数模型和大量数据来练习预测,该模型发现并表征了人类语言的大部分结构。研究表明,这些模型学习并表示句子的句法结构,并学习记忆许多有助于模型成功预测自然语言掩蔽词的事实。此外,虽然预测掩码词最初似乎是一项相当简单和低级的任务,但这项任务的结果是强大而通用的。这些模型汇集了他们接触到的语言和广泛的现实世界知识。如果有进一步的说明,这种大型预训练模型(LPLM)可以部署在许多特定的NLP任务上。从2018年到2020年,该领域的标准方法是通过少量额外的监督学习来微调模型,在感兴趣的确切任务上对其进行训练。但最近,研究人员惊讶地发现,这些模型中最大的模型,例如GPT-3(生成式预训练变压器),仅需提示即可很好地执行新任务。给模型一个人类语言描述或一些人们希望模型做什么的例子,模型可以执行许多他们从未受过训练的任务。大模型带来的NLP新范式传统的自然语言处理模型通常由几个独立开发的组件组成,通常构建在一个流水线中,首先尝试捕获文本的句子结构和低级实体,然后然后是高级含义的词汇表,它也被输入到一些特定领域的执行组件中。在过去的几年里,业界已经用LPLM取代了这种传统的NLP解决方案,LPLM通常经过微调以执行特定任务。我们可以期待LPLM在2020年代能取得怎样的成就。早期的机器翻译系统涵盖了有限领域的有限语言结构。从翻译文本的广泛平行语料库构建大型统计模型是一种可以涵盖机器翻译的方法,这也使2006年首次推出的谷歌翻译成为可能。十年后,也就是2016年底,当人们转向神经机器翻译时,谷歌的机器翻译性能显着提高。但是,新系统的更新越来越快。2020年,基于Transformer的神经翻译系统得到了改进,具有不同的神经架构和方法。新系统不是在两种语言之间进行翻译的大型系统,而是利用一个巨大的神经网络,该网络同时针对谷歌翻译涵盖的所有语言进行训练,只用一个简单的标记来标记不同的语言。虽然系统仍然会出错,但机器翻译仍在不断发展,如今自动翻译的质量非常好。例如,将法语翻译成英语:1930年代中期,他在1933年与钢琴家约翰尼·赫斯(JohnnyHess)创作了成功的二重奏后,以独奏家的身份首次亮相,因此被昵称为“歌唱狂人”。因为他在舞台上的活力,他敏捷的轮廓,他睁大的眼睛和笑着的眼睛,他凌乱的头发,尤其是他在解释和写作文本时赋予词语的节奏。他是1930年代中期的SingNickadman,当时他在1933年与钢琴家约翰尼赫斯(JohnnyHess)成功二重奏后首次作为独奏艺术家亮相。因为他在舞台上的活力、敏捷的身材、睁大的笑眼、凌乱的表情头发,尤其是他在解释和写作文本时赋予文字的节奏。在问答系统中,系统在一组文本中找到相关信息,然后提供特定问题的答案(而不是只返回建议的相关信息页面)。问答系统有许多直接的商业应用,包括售前和售后客户查询。现代神经网络问答系统在提取文本中存在的答案方面具有很高的准确性,甚至可以很好地寻找不存在的答案。例如,从以下英文文本中找到问题的答案:SamsungsaveditsbestfeaturesfortheGalaxyNote20Ultra,包括比GalaxyS20Ultra更精致的设计——我不推荐这款手机。您会发现一个出色的6.9英寸屏幕、锐利的5倍光学变焦相机和一个用于注释屏幕截图和做笔记的更快捷的手写笔。Note20Ultra还对Note10Plus进行了小而重要的改进,尤其是在相机领域。这些功能是否证明Note20Ultra的价格合理?128GB版本的起价为1,300美元。零售价是一个很高的要求,尤其是当你将全球经济严重衰退和失业率上升的气候结合起来时。三星GalaxyNote20Ultra的价格是多少?128GB版本1,300美元Ultra有20倍光学变焦吗?否GalaxyNote20Ultra的光学变焦是多少?5xGalaxyNote20Ultra的屏幕有多大?对于情感取向分类(正面或负面),当前最先进的系统是基于LPLM的,通过提供一组以所需方式标记的样本来针对特定任务进行微调。尽管这些任务在大型语言模型出现之前表现良好,但大型模型中语言和世界知识的广度进一步提高了这些任务的性能。最后,LPLM在生成流畅连续文本的能力方面引发了一场革命。除了许多创造性用途之外,此类系统还有工具用途,例如编写公式化的新闻文章和自动生成摘要。此外,这样的系统可以帮助放射科医生根据他们的发现制定(或总结)关键点来诊断病情。这些NLP系统在许多任务上都表现出色。事实上,给定一项特定任务,他们通常可以接受培训,像人类一样执行这些任务。尽管如此,仍有理由怀疑这些系统是否真的理解它们在做什么,或者它们是否只是在毫无意义地重复操作。以对更复杂的编程语言的理解为例,编程语言中词的意义主要通过指称语义来描述:一个词、短语或句子的意义是对象或情况的集合,而世界或者它的数学抽象是这样描述的。这与NLP中现代实验研究的简单分布语义(或使用意义理论)形成鲜明对比,其中单词的意义不再只是对上下文的描述。大模型真的懂人类语言吗?我认为语言的意义来自于理解语言形式和其他事物之间的关联网络。如果我们有一个密集的联想网络,那么我们就可以很好地理解语言形式的含义。例如,如果我知道“shehnai”是一个印度词,那么我就可以对这个词的意思有一个合理的认识,这是一个印度唢呐;这个词将具有更丰富的含义来理解。相反,如果我从未见过或听过shehnai的声音,但有人告诉我它像传统的印度双簧管,那么这个词对我来说也有一些意义:它与印度有关,与管乐器有关,并且用于播放音乐。如果有人补充说shehnai有孔,有多个簧片和像双簧管一样的扩口端,那么我有更多的属性网络连接到shehnai对象。相反,我可能没有这些信息,只有几段使用该词的上下文,例如:一周前有人坐在房子入口处的竹林里玩shehnai;BikashBabu不喜欢shehnai的哀号,但决心满足新郎家人的所有传统期望。虽然在某些方面我对shehnai这个词的含义了解较少,但我仍然知道它是一种管乐器,基于我所知道的一些额外的文化联想。因此,理解语言的意义包括理解语言形式的关联网络,预训练的语言模型可以学习语言的意义。除了词汇本身的含义,预训练的语言模型还有很多实用知识。很多模特都是靠百科全书训练出来的,他们知道亚伯拉罕林肯1809年出生在肯塔基州;就像人类一样,机器可以从人类知识库中受益匪浅。然而,模型对词义和世界知识的理解往往非常不完整,需要用其他感官数据和知识来增强。大量的文本数据首先提供了一种非常易于探索和构建这些模型的方法,但扩展到其他类型的数据也是非常可取的。LPLM在语言理解任务上的成功以及将大规模自监督学习扩展到其他数据模式(如视觉、机器人、知识图谱、生物信息学和多模式数据)的令人兴奋的前景表明了更普遍的方向希望。我们为一类通用模型提出术语基础模型,通过自我监督对大量数据使用数百万个参数进行训练,然后可以轻松地对其进行调整以执行各种下游任务。例如BERT(BidirectionalEncoderRepresentationsfromTransformers)和GPT-3是此类基本模型的早期示例,但现在正在进行更广泛的工作。一个方向是将语言模型与更多结构化的知识存储连接起来,这些知识存储表示为知识图谱神经网络或在运行时要查阅的大量文本。不过,最令人兴奋和最有前途的方向是构建基础模型,该模型还可以结合来自世界的其他感官数据,以实现集成的多模态学习。这方面的一个例子是最近的DALL-E模型,在对图像和文本配对的语料库进行自我监督学习后,该算法可以通过生成相应的图片来表达新文本的含义。我们仍处于基础模型时代的早期,但在这里,让我勾勒出一个可能的未来:大多数信息处理和分析任务,甚至可能是机器人控制之类的任务,都将由少数几个基础模型之一执行。专业版接管了。这些模型训练起来既昂贵又费时,但很容易使它们适应不同的任务。事实上,人们也许可以简单地使用自然语言指令来做到这一点。这种在少数模型上的收敛带来了几个风险:能够构建这些模型的机构可能拥有太多的权力和影响力,许多最终用户可能会受到这些模型偏差的影响,很难判断这些模型是不是对不对。此外,在某些环境下使用的安全性也值得怀疑,因为模型及其训练数据非常庞大。无论如何,这些模型能够将从大量训练数据中获得的知识部署到许多不同的任务中,这将使它们非常强大。可以做到这一点的人工智能。虽然这些模型最终可能只有模糊的知识,但它们的可能性可能仍然有限,缺乏人类水平的细粒度逻辑或因果推理。但底层模型的普遍有效性意味着它们将得到如此广泛的部署,以至于它们将在未来十年内让人们第一次看到更通用的人工智能形式。

猜你喜欢