当前位置: 首页 > 科技观察

动态基准Dynabench发布,Facebook要用人类来“审问”人工智能

时间:2023-03-13 08:49:03 科技观察

Facebook已经搭建并正在分享人工智能领域首个动态数据采集和基准测试平台Dynabench。它通过人工测试和模型迭代迭代,目标是创建具有挑战性的新数据和更好的AI模型。人工智能在过去十年左右的巨大成功往往归功于丰富的数据和计算能力,但“基准测试”在推动进步方面也起着至关重要的作用。为了改进SOTA结果,研究人员需要一种方法来将他们的模型的性能与同行开发的模型进行比较。准确的比较是验证新模型确实优于该领域现有模型的前提。这个过程称为“基准测试”,或Benchmark。研究人员可以使用人工智能进行并排测试,看看它到底有多先进。例如,包含1400万张图像的公共数据集ImageNet设定了图像识别的目标。MNIST在手写数字识别和自然语言处理中的GLUE(通用语言理解评估)方面做了同样的事情,从而产生了像GPT-3这样具有突破性的语言模型。基准测试达到饱和的速度越来越快,尤其是在自然语言处理(NLP)领域。虽然研究团队用了大约18年的时间在MNIST上达到人类水平的性能,并用了大约6年的时间在ImageNet上超越它,但在GLUE语言理解基准上只用了大约一年的时间就超越了它。人类。固定目标很快就会被超越。在ImageNet的更新中,GLUE也被SuperGLUE取代,这是一套更难的语言任务。尽管如此,研究人员迟早会报告说他们的AI已经达到了超人的水平,在一个或另一个挑战中表现优于人类。如果我们想让“基准”继续驱动算法和模型的进步,这是一个亟待解决的问题。Dynabench:NewDynamicAdversarialBenchmarkFacebook正在发布一种新的测试方法,将人工智能与人类竭尽全力干扰它们进行比较,希望能帮助研究人员开发更强大的NLP模型。名为“Dynabench”的基准将根据人们的选择而改变,解决当前基准测试方法的缺点,并促进更强大的人工智能软件的开发。Dynabench的解决方案是通过将人工测试引入流程来部分实施基准测试流程。这个想法是,人类可以更准确地评估模型的准确性,而不是一组预先打包的测试问题会给神经网络带来更难、更具创造性的挑战。这是一种比当前静态基准更好的模型衡量标准,将更好地反映AI模型在最重要情况下的表现:当与人类互动时,他们的行为和反应是复杂且不断变化的方式,无法在固定集合中反映出来数据点。“现有的基准可能非常具有误导性,”Facebook人工智能研究所的DouweKiela说,他领导了开发该工具的团队。“成为任务”静态基准测试——忽略与人交互的体验很好,可以在与人互动时使用。人工智能真正的衡量标准不应该是准确度或复杂度,而是模型在直接或间接与人类建立沟通时的错误率。Kiela认为这是NLP现在面临的一个特殊问题。像GPT-3这样的语言模型是智能的,因为它非常擅长模仿语言,但很难说这些系统真正理解了多少。就像智力测试一样,可以对人们进行智商测试,但这并不能告诉你他们是否真的掌握了某个主题。为此,您需要与他们交谈并提出问题。就像一个只记住一堆事实的学生,这种策略可能在笔试中表现不错,但在面试中被问到创造性和意想不到的问题时效果就不那么好了。Dynabench做了类似的事情,“用人类来审问AI”。Facebook还发布了一个页面,邀请感兴趣的各方前往该站点测试其背后的模型。例如,您可以给语言模型一个维基百科页面,然后向它提问并为它的答案打分。在某些方面,这个想法类似于人们已经在使用GPT-3来测试其极限的方式。或者聊天机器人评估勒布纳奖的方式,或者类似图灵测试的方式。当AI完成一轮测试时,Dynabench识别出愚弄模型的问题并将它们编译成新的测试集。研究人员可以使用这个测试集来帮助他们构建更新、更复杂的模型。然后,一旦开发出可以回答第一个AI无法回答的问题的模型,Dynabench就会不断重复该过程并编译另一个包含更难问题的测试数据集。目前Dynabench将专注于语言模型,因为它是人类最容易理解的人工智能模型之一。“每个人都说一种语言,”Kiela说,“你不需要任何关于如何阻止这些模型的真正知识。”该方法也适用于其他类型的神经网络,例如语音或图像识别系统。Kiela说,你只需要找到一种方法来测试它,方法是让人们上传自己的照片,或者让他们画一些东西。Facebook的长期愿景是开放Dynabench,让任何人都可以开发自己的模型并收集自己的数据。Facebook希望让AI社区相信,会有更好的方法来测试NLP模型,这将使??模型和算法取得更快的进步,真正改善与人类交互的体验,真正理解交互内容。