本文转载自雷锋网。如需转载,请到雷锋网官网申请授权。日前,西雅图的研究人员发起了一项他们称之为“TuringAdvice”的人工智能新大挑战。其核心挑战是创建语言模型,为使用现实世界语言的人类提供有用的建议。TuringAdviceChallenge基于动态的RedditAdvice数据集。为迎接挑战而创建的Reddit建议是一个众包数据集,过去两周分享的建议在Reddit群组中获得了最多的赞成票。要通过挑战,机器的建议必须与流行的人类建议一样有用,甚至更好。作为TuringAdvice的一部分,研究人员还发布了用于训练提供建议的AI模型的静态RedditAdvice2019数据集,其中包括来自Reddit子社区用户共享的188,000个场景的616,000条建议。初步分析表明,像Google的T5(去年秋天推出的110亿参数模型)这样的高级模型仅在9%的时间内编写出版主认为至少与人类建议一样有用的建议。研究人员还评估了Grover的变压器模型和TF-IDF的版本。这项研究没有评估像谷歌的BERT这样流行的双向NLP模型,因为它们通常被认为在生成文本方面不如从左到右的模型。可以通过人机比较演示在线找到有关人际关系、法律事务和日常生活的建议。最近在TuringAdvice上发表的一篇论文写道:“当今最大的模型在REDDITADVICE上苦苦挣扎,因此我们很高兴看到新模型的发展。”“我们认为当今存在一个深刻的问题:人类在现实世界中如何使用语言与我们的评估方法可以衡量的内容之间存在差距。今天的主导范式是研究静态数据集并根据它们与之前的相似性对机器进行评级-定义正确的答案“然而,当我们在现实世界中使用语言进行交流时——比如提供建议,或者教别人一个概念——很少有一个普遍正确的答案可供比较,我们只是想实现的宽松目标。我们引入了一个框架来缩小基准测试和实际语言使用之间的差距。这组作者说,人工智能在TuringAdvice挑战赛中的进步可能会导致人工智能更好地为人类提供建议或充当虚拟治疗师。为确保结果与真实世界的语言使用一致,团队选择了动态评估方法,他们在过去两周内从Reddit的各个子社区收集了200种情况。他们选择使用建议作为测试场景,因为它是所有人都非常熟悉的东西,并且与阅读理解等核心NLP任务重叠TuringAdvice挑战是华盛顿大学和艾伦人工智能研究所的工作,并且详细在上周发表在arXiv上的一篇研究论文中。这篇论文的标题是“根据机器的实际语言使用情况”“根据真实世界的语言使用评估机器”。华盛顿大学副教授阿里·法哈迪(AliFarhadi)是艾伦研究所(AllenInstitute)前一个团队的负责人,也是这篇论文的合著者,最近他的人工智能初创公司Xnor被苹果公司收购。所有模型性能评估均来自通过亚马逊的MechanicalTurk聘用的人员。这篇论文表达了对AI模型训练数据获取方式的不满,但认为响应求助需求比发布自动化机器推荐更好人类,雇佣MechanicalTurk员工更合乎道德;它还承认执行任务的报酬会引入外在动机。比起人类建议更喜欢机器建议的员工会被解雇。首席研究员RowanZellers在接受采访时表示,研究人员将有机会创建和微调他们的模型;第二轮排行榜结果预计将在未来几个月公布。研究人员表示,他们选择了Reddit各个子社区共享的流行建议,试图创建一种内置驱动器,就像人们在响应Reddit上的求助电话时所体验的那样。TuringAdvice挑战的焦点之一是价格。在MechanicalTurk上评估200条建议的费用约为370美元。未来挑战的参与者将被要求向MechanicalTurk支付费用以评估他们的模型或出现在TuringAdvice排行榜上,这是过去一年创建的最新挑战,旨在构建更强大的自然语言模型。去年秋天,华盛顿大学的NLP实验室联合纽约大学、Facebook的AI研究所和三星研究院发起了SuperGLUE挑战和“排行榜”,这是一系列更复杂的评估性能的任务。
