当前位置: 首页 > 科技观察

继BERT之后,这个新模型再次打破了11项NLPbenchmarks的记录

时间:2023-03-18 13:23:17 科技观察

自BERT打破11项NLP记录以来,可应用于广泛任务的NLP预训练模型受到了广泛关注。最近微软发布了一个综合模型,在这11项NLP任务上表现优于BERT。目前名为“MicrosoftD36***I&MSRAI”的模型还没有提供相应的论文和项目地址,所以不知道是否是一种新的预训练方法。  BERT和微软的新模型都使用了通用语言理解评估(GLUE)基准测试中的11个任务,并希望利用GLUE来证明模型在广泛的自然语言理解任务上的鲁棒性。其中,GLUE基准测试不需要知道具体的模型,所以原则上任何能够处理句子和句子对并产生相应预测的系统都可以参与评估。这11个基准测试任务侧重于衡量模型跨任务的能力,尤其是参数共享或迁移学习的性能。  从微软新模型在GLUEbenchmark上的表现来看,至少在11个NLP任务上比BERT-Large更高效。这种效率不仅体现在81.9的任务总分上,还体现在参数效率上。微软的新模型只有1.1亿个参数,远少于BERT-Large模型的3.35亿个参数,和BERT-Base的参数一样多。下图显示了GLUE基准测试中排名前5的模型:  在“MicrosoftD36***I&MSRAI”模型的描述页面中,新模型使用了多任务联邦学习。因此,所有任务共享相同的结构,并通过多任务训练方法共同学习。此外,这11个任务可以分为4类,即句对分类MNLI、QQP、QNLI、STS-B、MRPC、RTE和SWAG;单句分类任务SST-2,CoLA;问答任务SQuADv1.1;句子标注任务(命名实体识别)CoNLL-2003NER。  其中,在句对分类任务中,有判断问答对是否包含正确答案的QNLI、判断两个句子相似度的STS-B等,都是用来处理与句子之间的关系。在单句分类任务中,有判断句子情感倾向的SST-2任务和判断语法正确性的CoLA任务,都是处理句子内部的关系。  在SQuADv1.1问答数据集中,模型将通过问题检索文章中正确答案的位置和长度。***在命名实体识别数据集CoNLL中,每个时间步预测它的标签是什么,比如人或地点。  是微软新模型在不同任务中的得分如下:  目前微软新模型的表现还非常小。如果是多任务预训练,也可以像BERT一样用于更广泛的NLP任务,那么这样高效的模型无疑有很大的优势。