当前位置: 首页 > 科技观察

AI科举制度扼杀创新!一个好的模型在你眼中只是一个“bash机”

时间:2023-03-12 11:29:19 科技观察

架构。2010年,基于ImageNet的计算机视觉竞赛启动,引发了深度学习领域的算法和数据革命。从那时起,基准测试就成为衡量AI模型性能的重要指标。方法。在NLP领域,还有GLUE(GeneralLanguageUnderstandingEvaluation)基准。AI模型需要在包含数千个句子的数据集上进行训练,并在九个任务上进行测试,比如判断一个句子是否合乎语法,分析情绪,或者两个句子之间是否存在逻辑蕴涵等。当GLUE首次发布,表现最好的模型得分不到70分。基准测试的创建者、纽约大学的计算机科学家SamBownman认为该数据集是成功的,至少对于AI模型而言是这样。仅仅经过一年的开发,AI模型的性能就轻松达到了90分,超越了人类87.1分的成绩。2019年,研究人员再次提高了基准测试的难度,发布了SuperGLUE,一些任务需要AI模型不仅要处理句子,还要在处理来自维基百科或新闻网站的段落后回答阅读理解问题。同样,当基准首次发布时,人类领先20分,到2021年初,计算机再次领先人类89.8分。难道说AI模型的智能水平已经超越了人类?在“账单榜单”上,AI语言模型经过大量书籍、新闻文章和维基百科数十亿词的训练,一次次让从业者兴奋不已。令人惊叹的人类散文、推文、电子邮件摘要,甚至数十种语言之间的翻译。但当它部署在现实世界的应用中,或者在具体的例子中进行测试时,都会让人感叹:AI怎么会犯这种愚蠢的错误呢?怎么教它改正?2020年,微软计算机科学家MarcoTúlioRibeiro发布了一份报告,指出了包括微软、谷歌和亚马逊在内的各种sota模型中存在的许多隐藏错误,比如将一句话中的“what's”改为“whatis”,模型的输出将与之前完全不同,从没有人意识到这些商业模式可能有多糟糕。这样训练出来的AI模型就像一个只会教考试而且成绩优异的学生。他可以顺利通过科学家设定的各种基准测试,但他不明白为什么。俗称“高分低能”。但大多数研究人员认为,解决办法不是放弃基准测试,而是对其进行改进。但在改进方法上存在差异。有人认为benchmark应该更加严谨,有人认为benchmark应该明确模型的偏差,还有人希望benchmark数据集的规模更大,以便处理没有单一性的问题标准答案(如文本摘要),或使用多个评估指标来衡量模型的性能。使基准测试更难改进基准测试最明显的方法之一就是使它们更难。AI初创公司HuggingFace的研究负责人DouweKiela认为,现有基准测试最离谱的一点是,AI模型似乎已经超越了人类,但每个NLP从业者都知道,他们想要达到人类水平的语言智能,还有很长的路要走。于是Kiela着手打造动态数据采集和基准测试平台Dynabench,主要针对GLUE等静态基准测试存在的一些问题:性能超过人类速度太快,容易过拟合,评价指标不确定或不完善,ETC。。Dynabench依赖于一个众包平台。对于每个任务(例如情感分类),众包工作者需要提交他们认为人工智能模型会错误分类的短语或句子。成功欺骗模型的例子被添加到基准测试中。模型根据这些数据进行训练,重复该过程,并且基准不断发展,而排行榜不会变得陈旧。Dynabench平台本质上是一个科学实验:如果以动态方式收集数据,将人和模型置于循环中,而不是传统的静态方式,AI模型的研究能否取得更快的进展?另一种提高基准的方法是缩小实验室数据与真实场景之间的差距。现有的机器学习模型通常是在同一数据集中随机选择的示例上进行训练和测试,而实际上,数据的分布可能会发生变化。WILDS是由斯坦福大学计算机科学家PercyLiang开发的基准测试。它由10个精心挑选的数据集组成,可用于测试模型以识别肿瘤、对动物物种进行分类以及完成计算机代码。WILDS中最关键的一步是每个数据集都来自多个来源。例如,肿瘤图片来自五家不同的医院。目的是检验模型在不同数据集之间的泛化能力。WILDS还可以测试社会偏见模型,其中一个数据集是从新闻网站评论平台收集的数十万条有毒评论的集合,按退化人口统计(黑人、白人、基督教徒、穆斯林、LGBTQ等)八个领域分组.研究人员可以通过在整个数据集上训练模型然后在数据的子集上对其进行测试来寻找盲点,例如,检测它是否可以识别针对穆斯林的有害评论。打破“分数理论”更好的基准测试只是开发更好模型的一种方式,开发者应该避免沉迷于排行榜上的排名和分数。埃因霍温科技大学计算机科学家JoaquinVanschoren在论文中痛斥所谓的SOTA(stateoftheart)扼杀了创新。他呼吁AI会议的审稿人不要再强调排行榜上的分数,而是要专注于创新。.大多数基准测试只有一个分数,不能完全反映模型的优缺点。在Dynabench中,Dynascore用于评估模型在基准测试上的性能,涵盖多种因素:准确性、速度、内存使用、公平性和对输入变化的鲁棒性。用户可以根据对他们最重要的因素对模型进行排名——例如,Facebook工程师可能比智能手表设计师更看重准确性,智能手表设计师可能更看重能效。另一方面,基准数据集中的问题通常没有绝对的“groundtruth”,因此分数的准确性不一定可靠。一些基准测试设计者只是简单地从测试数据中剔除模棱两可或有争议的示例,也称为数据集中的噪声。去年,伦敦玛丽女王大学的计算语言学家MassimoPoesio和他的同事创建了一个基准,用于评估模型从人类数据注释者之间的分歧中学习的能力。他们根据人类感受到的“搞笑程度”对多个文本片段进行排序,并以此来训练模型,让模型判断两个文本中哪一个更搞笑的概率,而不是简单地提供“是或否”作为答案,每个模型根据其估计与人类注释分布的匹配程度进行评分。基准研究仍然小众今天基准相关研究面临的首要问题是缺乏激励。在去年发表的一篇论文中,谷歌的研究人员采访了53位工业界和学术界的AI从业者。许多人指出,改进数据集并不像设计模型那样令人满意。该论文的作者之一LoraAroyo认为,机器学习社区正在改变对基准的态度,但它们仍然是一项小众研究。毕竟,在去年的NeurIPS会议上推出了一个新的轨道,用于审查和发布关于数据集和基准主题的论文,立即为这些主题的研究创造了新的动力。联合主席Vanschoren表示,组织者预计会收到数十篇论文,但最终收到了500多篇论文,这也说明了很高的??期望。一些论文提供了新的数据集或基准,而另一些则揭示了现有数据集或基准的问题。一位研究人员发现,在10个流行的视觉、语言和音频基准测试中,至少有3%的测试数据被错误标记,这些错误会影响模型的排名。虽然许多研究人员希望获得激励以创建更好的基准,但其他人不希望该领域对这些进行过多研究。古德哈特定律指出,一旦指标成为目标,它就不再是一个好的指标。换句话说,当你试图用各种方法教模型如何参加考试时,考试本身就失去了意义。最后,Ribeiro表示,基准测试应该成为从业者工具箱中的一种工具,人们将其用作模型理解的代理,以针对基准数据集测试“模型的行为”。参考:https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help