牛津大学最新研究:AI面临基准危机,NLP专注于“攻关关键”推理测试。同时,一些benchmark也确实推动了AI的发展,比如ImageNetbenchmark,这几年的热潮就功不可没。今天,ImageNet基准测试仍然在研究中发挥着核心作用,一些新模型,如谷歌的VisionTransformer,仍然在论文中与ImageNet方法进行比较。但是,如果某一个benchmark的分数一直高居榜首,以后又没有优质的benchmark出台,那么这种靠benchmark促发展的“方式”就会有问题。近日,维也纳医科大学和牛津大学的研究人员对AI基准图进行了调查,统计了自2013年以来CV和NLP领域406个任务共计1688个基准。结果发现,大部分基准正在迅速接近饱和,一些基准被搁置;同时,在NLP领域,从2020年开始,新benchmark的建立有所减少,方向转向了推理或推理相关的高级任务。在论文中,作者呼吁未来的工作应侧重于大规模社区协作,并将基准性能与现实世界的效用和影响联系起来。1.33%的AIbenchmarks“停滞不前”从单个benchmark开始,如上图,可以看出benchmark上的SOTA有稳定增长、停滞或饱和、飞跃后三种状态停滞。其中,稳增长代表技术稳定;停滞的背后,是技术进步能力不足;而爆发指的是技术上的突破。事实上,近年来,NLP等关键领域的相当一部分新的benchmark已经迅速饱和,或者针对特定的benchmark特征设计了过度优化的模型,而这些模型往往无法泛化到其他数据。目前,这些现象已经溢出到同一领域的不同基准中,例如上图,CIFAR-10和CIFAR-100的状态。同时,在数量上也出现了尴尬的局面。例如,《2021年的人工智能指数报告》指出CV基准的数量可能能够满足不断增长的任务要求;而NLP模型的增长率正在超过现有的问答和自然语言理解基准。Martínez-Plumed等学者分析了CIFAR-100和SQuAD1.1等25个流行的AI基准测试背后的“故事”,他们发现“SOTA前沿”由某些长期协作的社区主导,例如美国或亚洲大学和科技公司。组织。此外,其他学者分析了众多AI基准测试中数据集使用和重用的趋势,发现大部分“知名”数据集是由少数知名组织提出的,其中一些越来越多地被重用为新任务。NLP是个例外,引入和使用新的、特定于任务的基准测试高于平均水平。在这项研究中,维也纳医科大学和牛津大学的研究人员表明,饱和和搁置非常普遍。总体而言,有几个趋势:1.研究兴趣不足是停滞不前的原因之一;2.大多数基准将很快达到技术停滞或饱和;3.在某些情况下,4.绩效改进的动力并不遵循清晰可辨的模式:在某些情况下,平稳期之后是不可预测的飞跃。图注:基准有三种发展趋势:稳定增长、停滞或饱和、停滞后的飞跃。此外,1688个基准中只有66%被充分利用,换句话说,33%的基准被搁置。与此同时,基准测试的另一个趋势是它被某些成熟机构和公司的数据集所主导。2.NLPbenchmark面临高难度任务过去几年,CV领域的benchmark占据主导地位,但NLP也开始蓬勃发展。2020年,新的benchmark数量有所下降,越来越专注于更难的任务,比如测试推理的任务,比如Google的BIG-bench和来自Facebook的NetHack。上图展示了NLP的benchmark生命周期。可以明显看出,大多数任务的几个主流benchmark都是在2011年到2015年间建立的,这期间只出现了少数SOTA。2016年后,新基准的建立速度大大加快,在翻译和自然语言建模方面表现最为突出;2018年和2019年,针对各项工作建立了大量标杆;2020年是一个转折点,新基准的建立减少,方向转向推理或与推理相关的更高层次的任务。总体而言,当前AI基准的趋势是:既定机构(包括行业)的基准趋势引起了对基准偏差和代表性的担忧;许多基准并不完全匹配AI性能与现实世界,因此,可能需要开发少量涵盖各种AI功能和场景的有质量保证的基准。最后,研究人员设想,未来应该由来自多个机构和知识领域的大型协作团队开发新的基准,以确保建立高质量的基准。
