自然语言理解(NLU)迎来新的里程碑。在最新的NLU基准SuperGLUE中,人类首次被AI超越。与“前辈”GLUE相比,SuperGLUE大大提高了题目的难度。提出一年多以来,人类一直处于第一位。今天,人类突然被两种人工智能超越。一个是微软的DeBERTa,一个是谷歌的T5+Meena。超越人类的两大NLU模型对于NLP领域的人来说并不陌生。微软的DeBERTa模型并不陌生。早在去年8月,微软就开源了模型的代码,并提供了预训练模型下载。最近,微软训练了一个更大的模型,一个包含48个Transformer层和15亿个参数的版本。规模增大带来的性能提升,使得单个DeBERTa模型在SuperGLUE上的得分(90.3)首次超过人类(89.8),位居榜首。DeBERTa(DecodingEnhancedBERTwithSeparatedAttention)是一种基于Transformer的神经语言模型,使用自我监督学习在大型原始文本语料库上进行预训练。与其他预训练语言模型(PLM)一样,DeBERTa旨在学习通用语言表示,以适应各种下游NLU任务。DeBERTa使用了三种新技术——分离的注意力机制、增强的掩码解码器和用于微调的虚拟对抗训练方法。对以前最先进的PLM(例如BERT、RoBERTa、UniLM)的改进。本研究由微软研究院的4位华人学者共同完成。另一个超越人类的AI是CMU博士生王子瑞提交的T5+Meena。这两种技术都来自谷歌。其中,Meena是一个26亿参数的端到端训练神经对话模型,有一个evolutionTransformerencoderblock和13个evolutionTransformerdecoderblock。编码器处理对话上下文,帮助Meena理解对话中已经说过的内容。解码器然后使用此信息来制定实际响应。T5是谷歌去年提出的“text-to-textmigrationTransformer”,即利用迁移学习让不同的NLP任务使用相同的模型、损失函数和超参数,机器翻译、文档摘要、问题的一个框架回答和情绪分析。可以使用。最大模型T5有110亿参数,上线时在SuperGLUE上达到了最高水平,目前仍仅次于榜单前两名模型和人类。关于SuperGLUESuperGLUE是Facebook、纽约大学、华盛顿大学和DeepMind于2019年8月提出的一个新的NLU测试基准,用于取代过去的GLUE。自从微软、谷歌和Facebook之前的模型不断刷新GLUE基准测试分数后,许多AI模型已经超越了人类的表现。因此,GLUE已经不能适应NLU技术的发展,SuperGLUE应运而生。我们吸取了原始GLUE基准测试的经验教训并引入了SuperGLUE,这是一种采用GLUE的新基准测试,具有一组更困难的语言理解任务、改进的资源和新的公共排行榜。这四家机构在SuperGLUE的官方文件中是这么说的。SuperGLUE一共包含10个任务,用于测试系统的因果推理能力、识别因果关系、阅读短文后回答是非题等。SuperGLUE还包含Winogenender,一种性别偏见检测工具。这些问题无法用当前最先进的算法很好地解决,但很容易被人类理解。特别是“选择合理的替代方案”(COPA)的因果推理任务。它要求系统能够根据给定的句子,在两个选项中找出可能的原因或结果。例子:男人的脚趾骨折了。这是什么原因?备选答案1:他的袜子有个洞。备选答案2:他把锤子砸在了脚上。人类在COPA上可以达到100%的准确率,而BERT只有74%,这说明NLU还有巨大的提升空间。既然SuperGLUE已经超越了人类的表现,微软研究人员认为:“这是通向通用AI的一个重要里程碑。”MicrosoftDeBERTa源代码和预训练模型:https://github.com/microsoft/DeBERTaGoogleT5和Meena:https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5。htmlhttps://ai.googleblog.com/2020/01/towards-conversational-agent-that-c??an.html
