阿里打破自然语言理解世界纪录,AI常识推理水平逼近人类这项技术是“95后”实习生叶志修在达摩院科学家的指导下完成的实习成果。CommonsenseQA是为研究基于常识性知识的问答而提出的数据集,难度比之前的SWAG和SQuAD数据集更高。目前流行的语言模型BERT在SWAG和SQuAD上的性能已经接近或超过人类,但在CommonsenseQA上的准确率仍远低于人类。上图是CommonsenseQA数据集上的常识性问题,竖起大拇指的选项是正确答案。自然语言理解(NLP,NaturalLanguageProcessing)是人工智能皇冠上的明珠,而常识推理是最难的NLP任务之一。在机器翻译、阅读理解等NLP任务中,AI的表现已经接近甚至超过了人类水平。阿里AI先后在国际高级机器翻译大赛WMT、机器阅读理解大赛SQuAD、文本阅读理解挑战赛MSMARCO中夺冠。甚至超越了人类的记录。相比之下,AI的常识推理能力比人类差很多。常识是指大多数人理解和接受的客观事实,比如盐是咸的,下雨需要带伞,村庄在陆地上而不是在湖泊上,等等。人们在回答问题时,往往会结合这种不言而喻的背景知识。但是机器没有常识来自动将原始陈述“人们在路上打着雨伞”与逻辑假设“外面正在下雨”联系起来。深度学习的先驱之一、图灵奖获得者YannLeCun曾断言,即使是非常聪明的人工智能,在常识方面也不如猫。在包含12000多个常识问题的CommonsenseQA数据集上,流行的AI模型BERT的回答准确率为56.7%,远低于人类的89%。阿里达摩语音实验室提出了AMS方法,显着提升了BERT模型的常识推理能力。AMS方法使用与BERT相同的模型,并且只对BERT进行预训练。在不增加模型计算量的情况下,在CommonsenseQA数据集上的准确率提高了5.5%,达到了62.2%。上图为CommonsenseQA数据集的评分列表。阿里AI创造了新的世界纪录。阿里的技术突破将大幅提升下一代人机交互产品的常识理解能力,可应用于语音导航、智能电视、语音售票机等产品。想象这样一个场景:你开车去寻找一个偏远的村庄,这个村庄不久前搬迁了,但是导航还没有更新位置信息。村子所在的土地已被开挖成人工湖。由于AI没有常识,导航会直接带你到湖心。如果AI有常识,就不会犯这种“愚蠢”的错误。达摩院表示,未来将把模型和论文开源,与业界分享新的研究成果。
