当前位置: 首页 > 科技观察

超牛的NLP都在研究啥?统计400多篇顶会论文发现:统一泛化标准是关键

时间:2023-03-20 21:42:14 科技观察

超级牛逼的NLP在研究什么?根据对400多篇顶级会议论文的统计,发现统一的泛化标准是关键一篇NLP(自然语言处理)研究综述文章火了。据paperswithcode统计,这篇文章获得了800多个点赞,转发200多次。来自MetaAI、亚马逊、剑桥大学和纽约大学的研究人员针对NLP最关键的任务:泛化,提出了分类评价系统,以解决目前圈内缺乏分类评价系统的问题。为此,他们对过去400多篇与泛化相关的论文进行了分析和分类,并进行了600多次个体实验。通过回顾过去泛化相关的研究,他们也对未来提出了更多的展望。此外,研究人员还搭建了一个网站,方便泛化领域的研究人员搜索同行成果(链接附在文末)。目前,该内容已发表在arxiv上,受到圈内研究人员的关注。有网友表示,以往很难搜索到相关内容,并向团队致敬:也有日本粉丝关注转发:那么,这篇评测具体提出了什么?在为泛化创建分类和讨论研究结果之前,让我们简要描述一下什么是泛化。这个任务可以大致理解为根据过去的经验迁移到新的任务和问题上的能力。按照中学老师的语气,就是推理的水平。人们在日常生活中造词造句时,其实有一定的概括倾向。例如,当你明白“红色”可以用来形容苹果时,你自然会说出“红番茄”、“红草莓”等词,但这对机器来说是一道难题。泛化能力也需要依赖大量的基本常识,否则词的自由组合难免会产生可笑的效果。比如“格林吃小狗”、“量子比特比美女还大”……笑话就是笑话。在NLP领域,泛化确实已经被视为重点研究方向,很多从业者甚至将这种能力视为AGI的关键。重要的。然而,长期以来,对于NLP模型应该如何进行泛化操作,以及评价其泛化性能的条件,几乎没有统一的标准和意见。泛化行为已通过“随机训练-测试拆分”进行了简单评估。.在这篇文章中,研究人员希望通过回顾过去几十年NLP领域泛化能力的成就,用一个系统来定义和讨论泛化问题。因此,他们提出了一个分类法并设计了五个维度供泛化领域的同仁参考:(1)动机动机(2)泛化类型泛化类型(3)偏移类型偏移类型(4)偏移源偏移源(5)shiftlocusoffsettrajectoryalsocountedWhichtypeshavemoreresearchandwhichtypesarerelativelyniche,presentedinpictures(相当整洁):让我们在下面扩展这些分类维度。(1)MotivationDimension所谓动机维度源于根据泛化任务的潜在目的对各种问题进行分类。比如市面上主流的泛化任务都是为了提高模型的实用性。希望模型在用某类文本数据集训练后,也能给出合理的反应,在其他场景下也有足够的鲁棒性。动机是为了提高实用性。然而,一些泛化研究并不关注实际场景,而纯粹是想增强模型的认知能力,希望它有更快学习的能力。此前,有科学家研究了LSTM如何优化嵌套的语法结构,也是为了这个目的。.此外,动机维度还包括研究模型是否正确理解了任务,在应用中是否保证了公平性和包容性。下图显示了2018-2022年不同动机的泛化研究的比例,其中实用性仍然是主要的:(2)泛化类型维度该维度根据泛化任务的类型进行分类。在实际研究中,一些泛化研究侧重于各种信息的重组和组合。本文前面提到的“红苹果->红草莓”就属于这一类。此外,还有句子内容结构变化的泛化问题,跨不同任务的泛化,跨不同语言的泛化……都属于类型维度的分类。研究人员给出了六类分类,如下:(3)Offsettypedimension这个维度是从技术实现的过程中,根据不同泛化任务的测试集、训练集和预测结果中各个变量的概率分布来分类的研究人员将转变分为三种主要类型:协变量转变、标签转变和全转变。其中协变量偏移量在众多研究中占比最高。这是因为在训练模型的过程中,往往很难保证每个输入都满足稳定分布。根据泛化任务的定义,可以直观地想象这样的情况并不少见。.除了以上三种,研究人员还增加了两类抵消,假设抵消和多重抵消。(4)偏移来源的维度如前所述,可变偏移在泛化研究中很常见,研究人员根据偏移的来源对不同的研究进行了分类。这包括:自然偏移,训练模型和调整语料过程中的人为偏移,以及使用生成数据引起的偏移。值得一提的是,不同数据集之间自然发生的变量偏移所占比例最高。(5)偏移轨迹维度最后,研究人员提出了一种新的基于可变偏移发生位置的分类维度。考虑到整个模型训练和参数验证步骤从开始到结束,变量概率分布发生偏移的位置分别是:训练和测试过程之间、微调和测试过程之间、预训练和训练过程之间、预训练过程和预训练过程之间。-培训和测试过程在时间上和整个过程中多次转移。其中,早期研究论文中的变量转移主要集中在从训练到测试的过程中,但2020年后更多的转移发生在微调和测试之间。为NLP泛化测试的统一标准奠定基础研究人员发现,近年来与泛化相关的论文数量猛增:他们首先使用计算机从ACL(该领域顶级会议)的集合中筛选标题或摘要NLP和计算语言学)包含泛化、泛化、泛化或泛化等词的论文。(这些词都和“泛化”有关),人工检查选中的论文,去掉那些没有真正解决泛化问题的论文。然后他们计算了这些论文的数量以及它们占ACL每年论文总数的百分比。结果表明,这些论文的绝对数量和相对比例都有显着增加,而且这一点在2018年以来尤为明显。接下来,他们使用前面介绍的分类法对这些论文进行了注释。对于每篇论文,第一个注释者给出5个标签,然后由第二个注释者检查。如果两个注释者之间出现分歧,他们将首先讨论以尝试解决问题。如果两者无法达成一致,则引入第三个注释器。以上不止一步,整个标注过程还是比较严谨的。(大家可以看这张图感受下。。。)经过仔细的分类和统计工作,结果显示跨领域泛化问题最受关注,占比超过30%,其次是鲁棒性和任务理解。此外,超过半数的研究遇到了自然导致的变量偏差问题,这也是从业者最关心的问题。分类的意义不止于此。通过这种方式,研究人员提出了一个新的框架来系统化和理解泛化研究,最终目标是为建立可靠的NLP泛化测试统一标准奠定基础。他们认为,他们系统的分类学框架为泛化开发提供了必要的基础,为相关研究人员提供了更有效的工具,帮助大家快速找到相似的可参考结果。在发表这篇文章的同时,这组研究人员还发布了一个网页,打算及时跟进NLP泛化研究的最新进展。研究人员指出,他们希望通过这些系统化的框架和这个在线工具,尽可能统一大家对“NLP泛化测试”的理解,因为现有的研究几乎处于“各抒己见”的状态。(毕竟这一领域的研究从2018年才开始活跃)他们认为NLP模型上的重要泛化测试应该托管在一个共享平台上,并且必须有一个排行榜,让它更加方便和透明。在大型社区(如GitHub)上,NLP研究人员和领域专家讨论并决定应优先考虑哪些测试。当然,研究人员也明确表示,目前的工作还没有为泛化检验提供标准化的数据或程序,这些都得一步步来。研究人员来自科技巨头和顶尖大学该评论的作者可谓“星光熠熠”。除了来自Meta、亚马逊等科技巨头的研究人员,还有来自爱丁堡大学、剑桥大学、纽约大学、香港科技大学等高校的学者。该论文的第一作者DieuwkeHupkes目前是MetaAI的研究科学家。他的主要研究方向是NLP的人工神经网络。研究人员补充说,下一步是分析优先考虑哪些NLP泛化测试。他们指出,如果研究进展顺利,甚至在明年之内,NLP的泛化测试标准也会发生重大变化。论文地址:https://arxiv.org/abs/2210.03050门户网站:https://genbench.github.io/visualisations