当前位置: 首页 > 科技观察

NLP的新里程碑!清华耀斑毕业生发布KEAR:首个超越人类的常识问答

时间:2023-03-15 10:14:50 科技观察

从此,我们不能再说人类比AI更懂常识了!近日,在微软黄学东的带领下,清华遥班毕业生发布了新系统KEAR,成功登顶各类常识问答排行榜。常识问答性能首次超越人类。一直被AI模型诟病的一点是,它只能“学死”,只能根据给定的训练样本进行预测,连一点“常识”问题都回答不了。比如你问GPT-3:太阳有几只眼睛?它会毫不犹豫地告诉你:当然是眼睛!虽然常识性信息并没有在输入文本中体现出来,但是如果不懂常识,答案只能是驴唇不是马口。为了解决这类常识性错误,研究人员利用ConceptNet建立了专门针对常识性问答的数据集CommonsenseQA,要求模型理解常识性才能正确回答问题。每个问题包含五个候选答案,其中两个是干扰项,这对AI模型来说更是难上加难。例如,给出一个问题:你的狗喜欢吃什么?(Whatisatreatthatyourdogwillenjoy?)候选答案可能是沙拉、爱抚、感情、骨头、很多关注等。在与狗的互动过程中,人们可以了解到大多数狗喜欢吃骨头,所以他们可以推断你的狗在候选答案中更倾向于骨头,但AI模型不理解。所以要想正确回答这道题,就必须懂得运用外部知识。然后CommonsenseQA的作者拿了一个当时横扫各大排行榜的模型BERT-LARGE来测试,结果惨不忍睹,准确率只有55.9%,而人类答案的准确率却达到了88.9%。三年后,微软中国团队近日发表论文,提出了KEAR(KnowledgeExternalAttentionforcommonsenseReasoning)系统,将CommonsenseQA的性能提升到一个新的水平,准确率高达89.4%。成功超越人类,堪称AI常识领域里程碑式的典范。与传统AI模型需要大规模数据进行训练相比,本文提出了一种外部注意力机制来增强Transformer架构,可以将外部知识信息整合到预测过程中,从而减少对模型输入的需求。大量参数的需求让AI系统更加民主化(democratization),这意味着它可以降低AI模型研究的门槛,并且不需要从老黄那里买很多显卡就可以达到SOTA的性能。一般来说,KEAR模型在回答“你的狗喜欢吃什么”这个问题时,会先从ConceptNet实体链中检索“dog—desires—petted,affection,bone,lotsofattention”,从而排除Gotasalad错误的答案。然后KEAR从维基词典中检索骨骼的定义:构成大多数脊椎动物骨骼的复合材料;从CommonsenseQA数据集中的训练数据中检索“狗喜欢吃什么?”Bones”(Whatdodogsliketoeat?bones)。将检索到的知识和输入的知识进行级联后,KEAR将其作为DeBERTa模型的输入,最终可以推断出正确答案:bones!可以看出对于人类最简单的问题,AI模型需要大量的外部信息才能正确回答。由于CommonsenseQA只是英文常识问答的数据,论文还探讨了其他语言的常识推理是否可行仍然有效。研究人员首先将非英语问题翻译成英语,然后在英语语料库数据中检索知识,然后将知识文本翻译成源语言,然后通过外部注意力机制翻译获得答案,即翻译-retrieval-translation(TRT).结果也是X-CSRbenchmark上X-CODAH和X-CSQA这两个task都取得了第一名。eself-attentionself-attentionmechanismonthesourcetext,通过给模型提供大量的数据进行训练,让模型记住输入的文本。Transformer的效果虽然很好,但是缺点也很明显:时间和空间复杂度太高,需要大量显卡和显存数据量不够,Transformer的性能不够好上另一方面,Transformer本质上是一个黑盒模型,没有办法让他像人类一样进行文本理解和推理。重要的是要知道为什么人工智能会做出这样的预测。KERA利用知识图谱、词典和公开的机器学习数据等常识性知识,可以在一定程度上反映答案。源和模型推理过程。外部注意力的实现方法也很简单。将输入(input)和知识(knowledge)级联在一起作为一个新的输入,然后通过self-attention机制将整体视为H0。K(知识)的来源包括知识图谱ConceptNet、字典和训练数据。可以看出,self-attention和externalattention的主要区别在于输入是否仅来自输入文本,即通过向externalattention机制提供不同来源的相关背景和知识,包括知识图谱、词典、语料库和其他语言模型的输出,然后让模型同时对输入进行self-attention和对知识进行externalattention,从而达到引入外部知识的效果。导入的外部信息以符号形式存储,例如纯文本或知识图谱条目,可以提高Transformer的语言理解能力。并且KEAR使用的输入和知识的文本拼接不会对Transformer模型结构产生任何改变,使得现有系统很容易使用外部注意力。因为世界上的知识也在动态变化,外部注意力的另一个好处是用户可以很容易地更新知识源来改变模型的预测输出。通过引入最新的常识,例如将在线更新的知识图输入到模型中,可以使模型的决策过程更加透明和可解释。采用多模块联合优化,引入外部关注知识库,也是微软人工智能认知服务质量提升的核心方向。作者简介文章第一作者徐一冲,毕业于清华大学姚班,获学士、卡耐基梅隆大学博士学位。主要研究方向为交互式机器学习、自然语言处理和深度学习。他目前是微软人工智能认知服务研究组的高级研究员。朱晨光是微软认知服务研究组的主要研究负责人。他领导知识和语言团队,致力于文本摘要、知识图谱和面向任务的对话方面的研究和开发。他于2016年在斯坦福大学获得计算机科学博士学位和统计学硕士学位,此前在清华大学姚班获得计算机科学学士学位。黄学东是微软AI认知服务工程与研究团队负责人,IEEE/ACMFellow,微软首位“华人全球技术院士”,微软首席语音科学家,微软云计算与人工智能事业部认知服务团队全球技术院士/全球人工情报首席技术官。先后获得湖南大学学士学位、清华大学硕士学位、爱丁堡大学博士学位。