Google发布了24个BERT小模型,直接通过MLMloss进行预训练BERT赢在模型中,也输在模型中!BERT一出世就顶着“打破11项记录”的光环,以压倒性的参数猛烈突破。可以说BERT的成功在于模型。但是大,一方面成就了BERT,另一方面也成为了其更广泛应用的障碍,体现在三个方面。障碍一:庞大的资源体量需要占用庞大的存储资源,同时维护大量的存储资源也在不断消耗大量的能源。障碍二:太耗时BERT作者Jacob曾提到“BERT-Large模型有24层和2014个隐藏单元。它需要在33亿词的数据集上训练40个Epoch,在8个P100上可能需要1年.”。障碍三:成本高有人计算过三大模型的训练成本大致为:BERT:12,000美元GPT-2:43,000美元XLNet:61,000美元为了解决上述问题,人们不断推出BERTSize事项的简化版本。其实以上三个问题的根源都在于Size,于是大家开始研究简化版的BERT。在资源有限的情况下,模型体积小的优势不言而喻。DistillBERT:HuggingFace团队使用基于BERT的知识蒸馏技术训练的小型化BERT。模型尺寸减小40%(66M),推理速度提升60%,但性能仅降低约3%。ALBERT:通过改变模型架构,体积大大减小了。最小的ALBERT只有12M,最大的ALBERT-XXLarge有233M,BERT-Base有110M。不过,虽然尺寸变小了,但是推理速度并没有明显提升。TinyBERT:使用知识蒸馏来压缩模型。该机型由华中科技大学与华为联合出品。Google亲自推出更小的BERT模型就在昨天,Google更新了BERT的GitHub仓库,发布了24个更小的BERT模型,仅限于英文词汇且不区分大小写。24个模型使用WordPiecemasking训练,直接通过MLMloss进行预训练,可以通过标准训练或最终任务抽取对下游任务进行微调,这在MLM蒸馏更精细的预训练策略上极为有利。理论指导来自论文《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》。论文地址:https://arxiv.org/abs/1908.08962小的BERT模型只需要按照原来的BERT微调方法进行微调即可,但是在大的BERT做的知识蒸馏的情况下效果最好和更准确的老师。请注意,为了完整性,此版本中的BERT-Base模型在与原始模型相同的条件下进行了重新训练。GLUE分数:24小BERT下载地址:https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip
