当前位置: 首页 > 科技观察

今年的英语高考,CMU使用重构预训练交出134的高分,大大超越GPT3

时间:2023-03-19 00:03:21 科技观察

我们存储数据的方式正在发生变化,从生物神经网络到人工神经网络,其实最常见的情况是用大脑来存储数据。随着当今可用数据量的不断增加,人们寻求将数据存储在不同的外部设备中,例如硬盘驱动器或云存储。随着深度学习技术的兴起,出现了另一种有前途的存储技术,它使用人工神经网络将信息存储在数据中。研究人员认为,数据存储的最终目的是为了更好地服务于人类生活,数据的访问和存储方式同样重要。但是,数据的存储和访问方式存在差异。从历史上看,人们一直在努力弥合这一差距,以便更好地利用世界上存在的信息。如图3所示:就生物神经网络(如人脑)而言,人类在很小的时候就接受课程(即知识)教育,从而提取特定数据以应对复杂多变的生活。对于设备外存储,人们通常根据某种模式(例如表)来构建数据,然后使用专门的语言(例如SQL)从数据库中高效地检索所需的信息。对于基于ANN的存储,研究人员利用自监督学习来存储来自大型语料库的数据(即预训练),然后将网络用于各种下游任务(例如情感分类)。CMU的研究人员提出了一种访问数据的新方法,该方法包含各种类型的信息,可用作预训练信号以指导模型参数优化。研究以信号为单位的结构化数据表示。这类似于使用数据库存储数据:首先将它们结构化为表或JSON格式,以便您可以通过SQL等专用语言准确检索所需的信息。此外,该研究认为,有价值的信号大量存在于世界上各种数据中,而不是简单地存在于人类策划的监督数据集中,研究人员需要做的是(a)识别数据(b)使用统一的语言重组数据(c)将它们集成并存储到预训练的语言模型中。该研究称这种学习范式为重构预训练(RST)。研究人员将这一过程比作“矿山寻宝”。维基百科等不同的数据源相当于蕴藏着丰富宝石的矿山。它们包含丰富的信息,例如来自超链接的命名实体,可以为模型预训练提供信号。一个好的预训练模型(PLM)应该对数据中各种信号的组成有清晰的认识,从而根据下游任务的不同需求提供准确的信息。论文地址:https://arxiv.org/pdf/2206.11147.pdfPre-trainedlanguagemodeltreasurehunt本研究提出了一种新的自然语言处理任务学习范式,即RST,重新强调数据的作用并结合模型预训练和下游任务的微调被视为数据存储和访问过程。在此基础上,本研究贯彻了一个简单的原则,即良好的存储机制不仅要具备缓存大量数据的能力,还要考虑访问的便利性。在克服了一些工程挑战后,该研究通过对重建数据(由各种有价值的信息而非原始数据组成)进行预训练来实现这一目标。实验表明,RST模型不仅在来自各种NLP任务(例如,分类、信息提取、事实检索、文本生成等)的52/55流行数据集上大幅优于现有最佳系统(例如,T0)。-调整下游任务。在每年有数百万学生参加的中国最权威的高考英语考试中也取得了优异的成绩。具体来说,提出的高考AI(Qin)比学生平均分数高40分,比1/16参数的GPT3高15分。特勤在2018年英语考试中取得了138.5的高分,满分150。此外,该研究还发布了高考Benchmark在线提交平台,其中包含了2018-2021年至今(每年都会扩充)的10份带标注的英语试卷,让更多的AI模型参与高考。建立一个相对水平的人类和人工智能竞争的试验台,有助于我们更好地了解我们的立场。另外,在日前(2022.06.08)的2022年高考英语考试中,AI系统获得134分,而GPT3仅获得108分。本研究的主要贡献包括:(1)提出了NLP方法演化的假设。本研究试图通过探索现代NLP技术发展之间的内在联系,从全球视角建立“NLP技术演化假说”。简而言之,该假说的核心思想是,技术的迭代总是朝着这样一个方向发展,即开发者只需要做更少的工作,就能设计出更好、更通用的系统。迄今为止,NLP技术的演进经历了如图2所示的多次迭代:特征工程→架构工程→对象工程→提示工程,并正在朝着更加实用有效的以数据为中心的工程方向发展。研究人员希望,未来能启发更多的研究人员批判性地思考这个问题,把握技术进步的核心驱动力,为学术发展找到一条“梯度上升”的路径,做更多有科学意义的工作。(2)基于进化假说的新范式:reStructuredPre-training。该范式将模型预训练/微调视为数据存储/访问过程,并声称良好的存储机制应该使预期数据易于访问。有了这样一个新范式,该研究能够统一来自10个数据源(例如维基百科)的26种不同类型的信号(例如句子实体)。在此基础上训练的通用模型在包括55个NLP数据集在内的各种任务上都取得了很强的泛化能力。(3)高考人工智能。基于上述范式,研究开发了专门用于高考英语考试任务的AI系统——Qin。这是全球首个基于深度学习的高考英语人工智能系统。秦在多年的高考题中取得了优异的成绩:比普通人高出40分,比GPT-3高出15分,参数仅为GPT-3的1/16。尤其是在2018年的英语试题中,秦老师拿下了138.5分(满分150分)的高分,听力和阅读理解均获得满分。(四)资源丰富。(1)为了追踪现有人工智能技术在实现人类智能方面的进展,该研究发布了一个新的基准——高考基准。它不仅提供了对现实场景中各种实际任务和领域的综合评估,还提供了人类的表现分数,以便人工智能系统可以直接与人类进行比较。(2)本研究使用ExplainaBoard(Liuetal.,2021b)为高考Benchmark设置交互式排行榜,让更多的AI系统可以轻松参与高考Benchmark并自动获得分数。(3)所有资源均在GitHub上可用。此外,人工智能在高考英语考试任务中的成功,为研究者提供了很多新的思考:人工智能技术可以赋能教育,帮助解决教育教学中的一系列问题。例如,(a)帮助教师自动评分,(b)帮助学生回答有关作业的问题并提供详细解释,以及(c)更重要的是,促进教育公平,让大多数家庭都能获得同等质量的教育服务。这项工作首次以统一的方式整合了世界上26种不同的信号,而不是试图区分监督数据和非监督数据,而是关注我们可以使用多少以及如何使用大自然赋予我们的信息。在来自各种NLP任务的50多个数据集上的出色表现展示了以数据为中心的预训练的价值,并激发了未来更多的探索。重构预训练以解决NLP任务的范式正在迅速变化,并且仍在继续。下表列出了NLP中的五种范式:与现有的以模型为中心的设计范式不同,本研究更多地从数据中汲取不同角度的思考,以最大限度地利用现有数据。具体来说,本研究采用数据存储和访问的观点,其中预训练阶段被视为数据存储过程,而基于预训练模型的下游任务(例如,情感分类)被视为数据访问过程从预训练模型,并声称良好的数据存储机制应该使存储的数据更易于访问。为了实现这一目标,该研究将数据视为由不同信号组成的对象,认为一个好的预训练模型应该(1)覆盖尽可能多的信号类型,(2)当下游任务需要时,提供信号提供精准的准入机制。一般来说,这种新范式包括三个步骤:重建、预训练和微调。重构、预训练和微调的新范式凸显了数据的重要性,研究人员需要在数据处理方面投入更多的工程精力。重建工程信号定义信号是存在于数据中的有用信息,可以为机器学习模型提供监督,表示为n元组。例如,“MozartborninSalzburg”、“Mozart”、“Salzburg”可以被认为是命名实体识别的信号。通常,可以从不同的角度对信号进行聚类,如下图6所示。数据挖掘真实世界的数据包含许多不同类型的信号。重构预训练可以充分利用这些信号。该研究将收集到的信号(n元组)组织成树状图,如下面的图10所示。信号提取本研究的下一步是信号提取和处理,涉及原始数据采集、数据清理和来自不同数据挖掘模式的数据规范化。现有方法大致分为两种类型:(1)基于规则和(2)基于机器学习。在这项工作中,研究主要集中在基于规则的信号提取策略,并为未来的工作留下更多高覆盖率的方法。SignalReconstruction在从各种数据挖掘源中提取出不同的信号之后,接下来的重要步骤是将它们统一成固定的形式,以便在预训练期间将所有信息一致地存储在模型中。提示方法(Brownetal.,2020;Liuetal.,2021d)可以实现这一目标,原则上,通过适当的提示设计,它可以将几乎所有类型的信号统一为一种语言模型风格。该研究将信号分为两大类:通用信号和任务相关信号。前者包含基本的语言知识,可以在一定程度上使所有下游任务受益,而后者可以使某些特定的下游任务受益。Experimentson55CommonlyUsedNLPDatasets该研究对55个数据集进行了评估,然后将它们分别与GPT3和T0pp进行了比较。与GPT3对比的结果如图所示:在除cb数据集外的四个数据集上,RST-All和RST-Task的零样本性能都优于GPT3的few-shot学习。另外,cb数据集是这些数据集中最小的,验证集中只有56个样本,所以不同提示在这个数据集上的表现会有很大的波动。与T0pp对比的结果如表4-6所示。例如,在55次测量的平均性能中,RST-All在49个数据集上击败了T0pp,并在47/55个示例上以最高性能获胜。此外,在55个数据集的平均性能测试中,RST-Task在52个数据集上优于T0pp,在50/55个示例上超过T0pp。这说明了重构学习的优越性。性能最佳的模型RST-Task擅长哪些任务?为了回答这个问题,本研究比较了RST-Task模型与当前SOTA模型在零样本设置下的性能,结果如图13所示。RST-Task擅长主题分类、情感分类和自然语言推理任务,但在信息抽取任务中表现不佳。高考:TowardsHuman-LevelAI研究收集了10份高考英语试卷,包括2018国考I/III、2019国考I/II/III、2020国考I/II/III、2021国考国考滚动A/B。这些试卷遵循相同的题型,将所有试题类型分为以下七个子类别,如表7所示:每份高考英语试卷为150分。听力、完形填空、阅读、写作分别占30、45、40、35。通常,写作部分是主观的,需要人工评估,而其他部分是客观的,可以自动评分。如表8所示:采用表1所示的重构工程循环构建高考英语AI系统Qin。整个过程如图14所示:研究使用如下提示将原始信号元组转化为提示样本,如表9所示:实验结果如表10-11所示,我们可以得出以下结论:在在每份英语试卷中,RST在两组听力测试中均取得了总分最高的成绩,平均分达到了130.6分;与T0pp相比,在相同模型尺寸下,RST的性能要比T0pp好很多。在所有设置中,RST的总分平均比T0pp高出54.5分,最大差距为69分(占总分的46%);与GPT3相比,RST可以取得明显更好的结果。在考虑的所有设置中,RST获得的总分平均比T0pp高14.0分,最高为26分(占总分的17%);对于T0pp,使用gold和speech-to-text成绩单获得的听力分数差异很大,平均为4.2分。相比之下,GPT3和RST分别为0.6和0.45,表明T0pp的性能对文本质量敏感。该研究进行了细粒度分析,以了解不同模型在不同问题子类别上的表现。在图15-(a)中,很明显RST和GPT3在每个问题子类别上都优于T0pp。图15-(b)展示了模型的表现和近几年学生在全国试卷上的平均表现。很明显,T0pp在paper9/10上的总分低于学生平均水平,而RST和GPT3的表现高于学生平均水平。特别是,十篇论文中有五篇的RST总分超过130(通常被认为是学生争取的目标分数)。2022年高考-英语考试(2022.06.08)刚刚结束,在近年的高考卷子中了解了模型的表现。该研究使用GPT3和RST进行了实验。结果显示,RST总分达到134分,远高于GPT3达到的108分。