本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。要说当今自然语言处理领域最时髦的“法宝”,恐怕非预训练语言模型莫属了。2018年,BERT横空出世,真正打开了NLP新世界的大门。而在这条前训+微调实践的道路上,各路高手堪称百花齐放,各领风骚。可以看到XLNet刚刚把BERT拉下了榜首,而RoBERTa进一步“压榨”了BERT的表现,重回榜首。不仅西方选手轮番上台,文心ERNIE等东方人物也有精彩表演。那么这两年,哪些机型表现不错呢?今天不妨和我一起盘点一下~一起来看看GLUE的武器谱吧。如果把预训练的语言模型比作武器,那么世界上就有一个“百小生兵器谱”,可以排一、二、三、四、五。GLUE是自然语言处理领域的权威排行榜之一。该榜单由纽约大学、华盛顿大学、DeepMind等机构联合推出,一直被视为评估NLP研究进展的行业标准。所以,GLUE的头把交椅之争真的很激烈。能够夺冠的“神兵”们,自然也有着属于自己的文章。玄铁重剑BERT表示,这款BERT一出道,就以预训练+微调的2-Stage模式,直接将GLUEbenchmark提升了7.7%,让不少NLP开发者感到意外。具体来说,BERT是一种基于Transformer的深度双向语言表示模型。预训练模型只需要增加一个输出层进行微调即可适应更广泛的新任务。这种概念上的简洁,可谓是没有锋芒的重剑。鸳鸯剑XLNetBERT不错,但缺点也不是没有。比如预训练时的MASK标记,在fine-tuning时是看不到的,这样会导致忽略两个entity之间的关系,造成pre-training-fine-tuning的差异。自回归模型可以避免此类问题。于是,“鸳鸯剑”XLNet登场了——这是一个具有双向特征表示的自回归模型。此外,作为广义自回归语言模型,XLNet不依赖于不完整的数据。倚天剑RoBERTa然而,就在XLNet“霸榜”一个月后,BERT的强势继承人出现了。Facebook对BERT进行了一点改进,进一步“压榨”了BERT的性能,以RoBERTa的名义重回巅峰。那架势正是“倚天出,谁争锋”。简单来说,RoBERTa主要做了这样的修改:更长的训练时间、更大的batch、更多的数据……从数据上看,原来的BERT使用了13GB的数据集,而RoBERTa使用了包含6300万条英文新闻的160GB数据集项目。在训练时间上,RoBERTa需要使用1024块NvidiaV100进行大约1天的训练。说到这里,你可能会问,我们的国产“武器”可曾上榜,与这些西方名将大放异彩?答案是肯定的。来自百度大咖文心的屠龙刀文心厄尼(ERNIE)最近刚刚再次夺得榜首。“宝龙屠龙刀”锋利至极,所向披靡。文心ERNIE的锋利之处在于能够整合海量知识不断学习进化,久磨不改,锋芒毕露。“国货之光”ERNIE并非第一次登上GLUE榜首。2019年12月,文心ERNIE在GLUE中首次突破90分大关,甚至超过人类3个百分点,刷新了榜单记录。此后,2020年,文心ERNIE在语言生成、跨模态理解、多语言理解等方面取得了突破。先后提出了ERNIE-GEN、ERNIE-VIL、ERNIE-M等模型,取得了10余项SOTA项。全方位权威评测榜首。例如,在全球最大的语义评测大赛SemEval2020中,文心ERNIE一举拿下五项世界冠军。ERNIE2.0论文被PaperDigest团队评为国际顶级人工智能学术会议AAAI2020最具影响力学术论文。文心ERNIE还获得了中国人工智能学会2020年度杰出科技成果奖和2020世界人工智能大会最高荣誉SAIL(SuperAILeader)奖。那么,拥有如此骄人的成绩,文心ERNIE的独家锻造秘方是什么?文心厄尼为何登顶NLP武器谱?文心ERNIE基于预训练-微调架构,首创大数据预训练与多源丰富知识的结合。它通过不断学习技术,在海量文本数据中不断吸取词汇、结构、语义等方面的新知识,实现模型效果的不断演化,就像人类不断学习一样。现在排在GLUE榜首的是ERNIEII。其预训练过程分为两步:构建无监督预训练任务学习不同维度的知识,通过多任务学习实现不同任务的连续训练。在这个过程中,不同的Task会被有序的添加到ERNIE中。通过不断的多任务学习,模型在学习新任务时不会忘记之前学过的知识。针对不同的具体应用任务,文心ERNIE2.0会使用具体的任务数据进行微调。说到这一次二代能够在激烈的比赛中夺冠的核心秘技,那就是分层学习了。这是一种新的学习范式,包括两个学习层次,分别对应“内功”和“外功”。内部技能(innerlayerlearning)主要是围绕三个方面的知识构建的预训练任务:词汇、结构和语义。这也是文心ERNIE在初登GLUE之巅时所采用的核心技术。这里也是一个简单的例子。在词汇层面,以知识掩蔽任务为例。文心ERNIE1.0模型通过在海量数据中掩蔽词、实体等先验语义知识,学习完整概念的语义表示。与BERT学习原始语言信号相比,ERNIE直接对先验语义知识单元进行建模,增强了模型的语义表示能力。说到文心ERNIE2.0,将其作为预训练任务。在结构层面,句子排序任务就是其中之一。句子之间的顺序反映了它们之间的逻辑顺序以及时间顺序。文心ERNIE2.0构建句子排序预训练任务:在训练过程中,随机打乱一段中的N个句子,让模型在N!类别。通过这项技术,模型学习到文章结构中包含的丰富知识。在语义层面,以逻辑关系预测任务为例:为了更精细地建模语义信息,短句之间连词所表达的逻辑关系是关键。因此,文心ERNIE2.0利用短句间的连词构建无监督关系分类任务,学习句子间细粒度的逻辑语义知识。如下图所示:除了内功,再说说外功。Externalpower(outerlayerlearning)是对模型结构和规模的精细化分阶段学习:从第一阶段采用循环共享参数Transformer结构,到第二阶段逐层扩展结构,最后完全扩展为非共享结构。这种方式带来的训练收益包括以下几个方面:首先,平滑的模型参数扩展训练方式解决了大规模Post-LN(layernormalizationpost,即LayerNormafterResidual)收敛不稳定的问题。其次,通过不断扩大模型的参数,使模型的神经元参数规模逐渐增大,文心ERNIE能够顺利吸收规模越来越大的知识输入,从而提高模型学习能力的上限。同时,在扩大文心ERNIE神经元的过程中,引入了百度飞桨自研的HybridSharding分布式训练算法。该算法通过在单位通信单元中均匀分布网络参数和梯度数据,巧妙地避开了网络开销瓶颈,可以充分利用硬件优势进行同步通信。这也使得训练百亿级参数的模型成为可能,训练时间大大减少。你也可以使用这个神奇的武器。说了这么多,评委们已经焦急等待了,迫不及待地问出关键问题:可以直接体验效果吗?那!是的!什么时候!当然!好消息是,百度发布了文心ERNIE语义理解平台。平台集成了文心ERNIE预训练模型集、完善的NLP算法集、端到端的开发套件和平台服务,提供一站式NLP开发和服务,帮助开发者更简单高效地定制NLP模型。近日,平台上线了文心ERNIENLP开发包专业版和旗舰版。在专业版中,预置了期待已久的文心ERNIE2.0预训练模型,为专业学术和产业发展需求提供语义理解能力。旗舰版面向行业应用场景,提供最全面的预训练模型库和算法集,支持金融、媒体等场景化应用。实验结果显示,文心ERNIE2.0在机器阅读理解、命名实体识别、自然语言推理、语义相似度、情感分析、问答等9项任务上明显优于BERT。同时,专业版开发包还搭载了多种NLP经典算法网络,支持文本分类、短文本匹配、序列标注、阅读理解等典型文本处理任务。基本上是从数据预处理到模型训练再到模型预测的一站式体验。想要试用的话,直接点击文末文心ERNIE官网申请下载即可。说起来,文心ERNIE还是国内两度登顶GLUE,横扫榜单的预训练“利器”之首。然而,翻开GLUE榜单,你会发现,在ERNIE的带领下,越来越多的中国制造神器正在不断突破,谱写属于自己的篇章。也正是在开放共享的氛围中,中国的NLP力量悄然发展壮大,走向了世界舞台的中央。那么,你想体验一下吗?文心ERNIE官网:https://wenxin.baidu.com/wenxin/sdk
