本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处.新的斯隆获奖者如何庆祝?发表最新研究成果算不算?斯隆奖揭晓当天,陈丹琪团队展示了最新的研究成果。团队发现经典NLP模型BERT提出的预训练“15%隐蔽率”规则可以被打破!“15%maskingrate”是指在预训练任务中,随机覆盖15%的词,通过训练,AI学会预测被覆盖的词。陈丹琪团队认为,如果将隐蔽率提高到40%,性能会比15%还要好。不仅如此,这篇文章还提出了一种新的方法,可以更好的提高40%的隐蔽率。NLP模型训练的效果。一位抱脸(HuggingFace)工程师说:BERT有一个很有意思的地方。尽管这是一项开创性的研究,但其训练方法是错误的或不必要的。该论文的合著者高天宇也是清华大学特等奖获得者。本科期间已发表四篇顶级会议论文。那么这篇论文是如何得出这个结论的呢?“大模型更适合高掩蔽率。”陈丹琪团队首先从掩蔽率、迭代次数、模型大小三个方向验证了这一结论。他们首先使用一系列不同的maskingrate来训练NLP模型,参数如下:结果发现,除了少数数据集外,模型在包括MNLI、QNLI、QQP等数据集上的训练效果、STS-B、SQuAD等40%的掩蔽率优于15%。为了进一步影响掩蔽率的迭代次数(训练步长),作者还记录了模型在不同迭代率下的效果。结果表明,随着迭代次数的增加,40%maskingrate基本上表现出比15%更好的性能:不仅如此,作者还发现更大的模型更适合40%maskingrate的训练。结果表明,大模型比40%掩蔽率的中等NLP模型表现更好:似乎仅将掩蔽率设置为15%并没有比40%更好的训练效果,而更大的NLP模型是也更适合40%掩蔽率的训练。该团队猜测,让任务变得更难会让模型学习更多的特征,而大型模型就有这种回旋余地。为了探究其中的原理,作者提出了一种新的评价方法。将掩蔽率拆分为两个指标。具体来说,maskingrate分为两个指标:corruptionrate和predictionrate。其中,破坏率是句子被破坏的比例,预测率是模型预测出来的比例。例如,“我喜欢打篮球”的语料库可能会被分解成“我[MASK][MASK][MASK]”提供给模型,但模型只需要预测第一个[MASK]是否是“like”。这样就可以用破坏率来控制预训练任务的难度,用预测率来控制模型的优化效果。论文进一步对损伤率(mcorr)和预测率(mpred)进行了研究,发现了一个新的规律:预测率越高,模型效果越好;但损坏率越高,模型效果越差:通过这种方式,可以更准确地评估各种预训练任务。最后,作者在该指标下测试了多种掩模,以查看哪些掩模在更高掩蔽率下表现更好。结果表明,随着掩蔽率的增加,随机均匀掩蔽(Uniform)的性能会优于SpanMasking和相关区间原理掩蔽(PMI-Masking)。但是在之前的很多NLP模型中,基本都是使用PMI-Masking或者SpanMasking等比较复杂的mask来进行训练。这也说明NLP大模型的预训练效果不能一概而论,单独训练方法值得进一步研究。作者介绍了陈丹琪团队的几位论文作者。第一个是高天宇,目前是普林斯顿大学的二年级博士生。毕业于清华大学,获清华大学本科生奖学金。高天宇本科时在刘志远教授团队从事科研工作。期间共发表4篇顶级会议论文(2篇AAAI,2篇EMNLP)。合著者AlexanderWettig,普林斯顿大学一年级博士生,剑桥大学硕士毕业,对NLP的泛化能力感兴趣。钟泽轩(ZexuanZhong),普林斯顿大学博士生,毕业于伊利诺伊大学香槟分校,师从谢涛,获硕士学位;毕业于北京大学计算机系,获学士学位,曾在微软亚洲研究院实习,师从聂再清导师。通过这一发现,许多大型NLP模型或许可以通过改进训练方法来取得更好的效果。论文地址:https://gaotianyu.xyz/content/files/2022/02/should_you_mask_15-1.pdf
