当前位置: 首页 > 科技观察

不用分词就可以完成NLP,哈工大最新模型在多项任务中击败BERT

时间:2023-03-12 07:09:14 科技观察

众所周知,BERT在预训练时会拆分某些词(术语称为“WordPiece”)。例如,将“loved”、“loving”和“loves”拆分为“lov”、“ed”、“ing”和“es”。目的是减少词汇量,加快训练速度,但这样一来,在某些时候,会阻碍模型的理解能力。例如,当“无损”分为“有损”和“较少”时。现在,哈尔滨工业大学和腾讯人工智能实验室的研究人员尝试开发一种BERT风格的预训练模型——WordBERT——使用不拆分单词的词汇表。因此,这个WordBERT在完形填空测试和机器阅读理解方面的表现相比BERT有了很大的提升。在其他NLP任务中,例如词性标注(POS-Tagging)、分块分析(Chunking)和命名实体识别(NER),WordBERT也优于BERT。由于不需要分词,所以这个WordBERT也可以直接用中文训练。更值得一提的是,在其性能提升的同时,推理速度并没有放缓。可谓一举多得。NOWordPieces与BERT类似,WordBERT由两部分组成:词嵌入和Transformer层。与以前的模型一样,WordBERT使用多层双向Transformer来学习上下文表示。词嵌入是用于获得词向量表示的参数矩阵。与BERT将单词划分为WordPiece相比,WordBERT的词汇表由完整的单词组成。他们使用自然语言处理包Spacy处理数据,并生成了两个词汇表,一个大小为500K,一个大小为1M。词汇表中还单独添加了五个特殊词:[PAD]、[UNK]、[CLS]、[SEP]和[MASK]。通过不同的词汇量、初始化配置和不同的语言,研究人员最终总共训练了四个版本的WordBERT:WordBERT-500K、WordBERT-1M、WordBERT-Glove和WordBERT-ZH。它们的配置如上,embedding参数随机初始化,embedding维度与benchmarkBERT一致。WordBERT-Glove使用的词汇是现成的Glove词汇,其中包含大约190万个未编码的单词。该模型通过相应的词向量(wordvectors)在WordBERT上进行初始化。WordBERT-ZH是用中文词汇训练的WordBERT,同样保持了768的wordembedding维度。无论是性能还是速度测试环节,完形填空测试数据集来自CLOTH,由中学教师设计,通常使用为中国初中和高中学生进行入学考试。既有当前句子中需要推理的简单题,也有全文中需要推理的难题。结果如下:△M代表初中,H代表高中WordBERT-1M取得了最好的成绩,接近人类水平。高中题比BERT高出3.18分,初中题高出2.59分,可见WordBERT在复杂任务中的理解和推理能力更高。在词性标注、词块分析、命名实体识别(NER)等分类任务中,WordBERT的结果如下:相比之下,其在NER任务中的优势更为明显(最后两列)。研究人员推测,这可能是因为WordBERT在学习低频词的表示方面有优势,因为命名实体(namedentities)往往是一些不常见的稀有词。对于WordBERT-ZH的“中文版”,研究人员在CLUE基准测试中测试了它在各种任务上的表现。除了BERT,对比模型还包括WoBERT和MarkBERT,这也是两个基于BERT预训练的中国模型。结果,WordBERT-ZH在四项任务上击败了所有其他比较模型,在所有五项任务上都优于基线BERT,并且在TNEWS(分类)、OCNLI(推理)和CSL(关键字识别)上表现良好。在任务上实现了超过3分的差距。这说明基于词的模型对中文也很有效。最后,实验还发现:性能良好的WordBERT在不同任务上的推理速度并没有“落后”。作者简介冯章银是哈尔滨工业大学计算机专业博士生,研究方向为自然语言处理和文本生成。曾在哈尔滨工业大学与科大讯飞联合实验室微软亚洲研究院自然语言计算组实习,并在自然语言处理领域顶级会议ENNLP发表第一作者论文。通讯作者为腾讯AI实验室石树铭。论文地址:https://arxiv.org/abs/2202.12142