95后达摩实习生击败微软,打破NLP能力最难任务世界纪录。而这项技术是95后“实习生”叶知修在达摩院科学家的指导下完成的实习成果!俗话说,长江后浪推前浪,又一部《人家的孩子多好》。近日,一个小伙走红:95后实习生在常识QA领域权威数据CommonsenseQA上刷新世界纪录!少年名叫叶知修。他的工作是在达摩院科学家的指导下完成的,并超越了微软,取得了第一名。什么是常识QA?CommonsenseQA是为研究基于常识性知识的问答而提出的数据集,难度比之前的SWAG和SQuAD数据集更高。目前最先进的语言模型BERT在SWAG和SQuAD上的性能已经接近或超过人类,但其在CommonsenseQA上的准确率仍远低于人类。阿里达摩语音实验室提出了AMS方法,显着提升了BERT模型的常识推理能力。AMS方法使用与BERT相同的模型,并且只对BERT进行预训练。在不增加模型计算量的情况下,在CommonsenseQA数据集上的准确率提高了5.5%,达到了62.2%。CommonsenseQA相关论文已发表在arXiv,并获得NAACL2019***资源论文。链接:https://arxiv.org/pdf/1811.00937.pdf作者:AlonTalmor、JonathanHerzig、NicholasLourie和JonathanBerant(以色列特拉维夫大学艾伦人工智能研究所)摘要:人们经常使用丰富的世界知识以及回答问题的具体上下文。最近的研究主要集中在根据相关文档或上下文回答问题,几乎不需要基础知识。为了使用先验知识研究问答,我们提出了一个关于常识问答的新数据集CommonsenseQA。为了捕捉关联之外的常识,我们从ConceptNet(Speeretal.,2017)中提取多个目标概念,这些概念与源概念具有相同的语义关系。我们要求众包工作者编写多项选择题,参考源概念并区分每个目标概念。这鼓励众包工作者编写具有复杂语义的问题,这通常需要先验知识。我们通过这一步创建了12,247个问题,并用大量强基线模型进行了实验,以证明这种新型数据集是有难度的。我们基于BERT-large(Devlin等人,2018年)的最先进基线达到了56%的准确率,低于人类准确率(89%)。下图是构建CommonsenseQA数据集的过程示例:最聪明的AI的常识不如猫的最佳任务之一。我们所说的常识,是指不需专门学习而具有的先天判断能力,或者是不需解释、不需论证而为人所熟知的知识。例如:打雷就会下雨(leou);打雷就会下雨(leou);下雨的时候,你需要一把伞(leao)。虽然在机器翻译、阅读理解等常见的NLP任务中,AI的表现已经接近人类水平,在某些场景下甚至超过了人类水平,但一旦涉及到常识推理,就成了白痴。例如,当我们看到行人撑着雨伞时,我们自然会想到外面可能正在下雨;而人工智能可能会区分所有类型的雨伞,但无法推断出“外面正在下雨”。在包含12000多个常识性问题的CommonsenseQA数据集上,它现在已经达到了56.7%的准确率,这仍然远低于人类89%的准确率。借用图灵奖得主YannLeCun的话,“最聪明的AI连常识都不如猫”。但幸运的是,现在阿里达摩院95后实习生的研究把AI放在了常识推理上。能力更接近猫的水平!或许在不久的将来,就会出现能听懂人话的“猫”。像,像加菲猫?👇
