前段时间,斯隆基金会公布了2022年斯隆研究奖的获奖者。陈丹琪、方飞、顾泉泉、李波等多名研究人员在计算机科学领域获奖。获奖后不久,陈丹琪团队公布了一项新研究。但与陈丹琪此前广受好评的作品不同,这部新作却遭遇了不少质疑。这项工作是关于掩码语言建模(MLM)的。掩码语言模型通常使用15%的掩码率,因为已经发现更高的掩码率将无法提供足够的上下文来学习良好的表示,而较低的掩码率将大大增加训练成本。但陈丹琪等人发现,如果掩蔽率提高到40%,性能可以超过baseline的15%;如果提高到80%,大部分性能还是可以保留的。这是对下游任务进行微调的结果。.由于与很多人自己的实验结果不符,而且没有开源代码,这项研究在推特、知乎等平台上引起了很大的争议。有人认为这是参数调整的结果,没有理论依据,“黑盒层层叠叠”,能不能复现不好说。但也有人认为,如果严格按照论文的设置,论文的结果是可以复现的,相当于“有人提前调整了最优参数”,这也不错。而且,这篇论文还能“启发大家重新思考MLM的使用”,不失为一部有价值的著作。知乎链接:https://www.zhihu.com/question/517319014?utm_source接下来我们一起来看看这部作品吧。这篇文章写了什么几个月前,何玉明的MaskedAutoencoders成为计算机视觉领域的热门话题,其在80%masking的情况下重建原始图像的能力令人惊叹。何玉明等人在论文中展望了预训练大型模型在CV领域的前景。在NLP领域,人们通常用来训练算法的maskingratio是15%。在陈丹琪的新研究中,这个数字明显增加了。论文链接:https://arxiv.org/abs/2202.08005预训练语言模型改变了自然语言处理的格局。大规模语言模型在海量文本数据上训练后,可以获得丰富多样的语言表征能力。与始终预测序列中下一个标记的自回归模型相比,像BERT这样的掩码语言模型(MLM)根据上下文预测输入标记的掩码子集,由于其双向性质,这通常更好。这种方法是限制模型只覆盖一小部分token内容开始学习,通常是每个序列15%。15%的数字反映了这样一种假设,即如果太多文本被屏蔽,模型将无法学会很好地表示它。这个想法在BERT之后被研究普遍采用。同时,仅对15%的序列进行预测已被视为对MLM进行有效预训练的限制。在普林斯顿大学ChenDanqi等人的研究中,作者发现了与之前结论完全不同的情况:在有效的预训练方案下,他们可以屏蔽40-50%的输入文本,并获得优于默认的15%.下游性能。下表显示了具有80%、40%和15%掩蔽的预训练模型的下游性能。在80%maskingrate的情况下,大部分上下文内容已经变得不可见,但与15%masking相比,模型仍然可以学习到接近训练前的表征效果。这挑战了人们对掩蔽率的直觉,并提出了模型如何从高掩蔽率中获益的问题。表1:不同屏蔽率下的屏蔽示例、验证困惑度和下游任务性能。这里,所有模型都是在有效的预训练条件下训练的大模型。沿着这个方向,作者建议将屏蔽率分解为两个因素:损坏率(屏蔽了多少上下文)和预测率(模型预测了多少标记)。在MLM中,损坏率和预测率都与掩蔽率相同。然而,这两个因素具有相反的效果:虽然较高的预测率会产生更多的训练信号和优势优化,但较高的损坏率会使学习问题在较少的上下文中更具挑战性。为了独立研究这两个因素,作者设计了消融实验来分离损伤和投射。实验表明,模型受益于更高的预测率,而不是更高的腐败率。更高预测率的好处是否可以掩盖更高损坏率的负面影响,决定了模型是否可以在更高的掩蔽率下表现更好。研究人员还发现,损坏率较高的较大模型表现出较高的最佳隐藏率。受此结果的启发,作者考虑在复杂情况下使用更高的掩蔽率,例如跨度掩蔽和PMI掩蔽。当以15%的掩蔽率进行评估时,这些方法被证明优于简单的均匀掩蔽,但均匀掩蔽在各自的最佳掩蔽率下与复杂的掩蔽基线相比具有竞争力。该论文的作者表示,他们新的预测率-损坏率框架也为BERT基于原始或随机标记(80-10-10策略)的预测实践提供了新思路——没有它,模型通常表现得更好。在讨论中,作者表明在MLM中采用更高的掩蔽率可以带来更好的性能,尤其是在资源有限的环境中。从输入中移除屏蔽标记,或将损坏和预测率解耦,有望进一步加快预训练。具体来说,这项研究的贡献包括:该研究表明,训练具有高掩蔽率的掩蔽语言模型是可以成功的。例如,具有高效预训练方法的大型模型在掩蔽率为40%时比在15%时表现更好;研究人员建议将掩蔽率分解为损伤率和预测率,两个相反的组成部分会影响任务难度和训练信号,研究人员使用该框架表明较大的模型具有更高的最佳掩蔽率,并且仅使用[MASK]标记掩蔽是优于80-10-10策略;研究表明,在高掩蔽中,Uniform掩蔽与更高级的掩蔽方案(例如低速率下的跨度掩蔽和PMI掩蔽)相比具有竞争力。掩码语言模型通常使用15%的掩码率。研究人员普遍认为,较高的掩码率会导致学习好的表征的上下文不足,而较低的掩码率会导致训练成本过高。在这项研究中,研究人员发现高达40%的掩蔽率可以超过15%的基线,甚至80%的掩蔽率也可以保持大部分性能,这可以通过微调下游任务来衡量。实验结果在消融实验中,研究人员发现提高掩蔽率有两个影响:1.更高比例的输入标记被损坏,减少了上下文的大小并创建了更困难的任务;2.模型会进行更多的预测,有利于训练。研究人员观察到,较大的模型特别适合较高的隐藏率,因为它们天生就具有较高的执行困难任务的能力。此外,研究人员将这一发现与复杂的掩蔽方案(例如跨度掩蔽和PMI掩蔽)以及BERT的80-10-10策略相结合,发现使用[MASK]的简单统一掩蔽反而可以实现更高的掩蔽率,具有竞争力。图1:掩蔽率对具有高效预训练方案的大型模型的影响。研究人员发现,在大多数任务中,较高的掩蔽率比15%的掩蔽率表现更好,其中40%是最佳掩蔽率。表2:在大模型和高效预训练方法条件下,在GLUEbenchmark上15%或40%掩蔽率的测试结果对比。图2:在15%和40%的掩码率下,使用高效预训练方法训练的大型模型的下游任务性能。表3:损坏率与预测率。以40%masking作为基线,将m_corr和m_pred分开,分别对它们进行操作。趋势很明显:更高的预测率是有益的,但更高的损坏率是有害的。图3:掩蔽率对不同尺寸模型的影响。可以发现,较大的模型具有较大的最佳掩蔽比。FutureProspects研究人员进一步讨论了其他语言模型中的掩码率问题。除了MLM,还有其他广泛用于NLP任务的预训练方案,包括自回归语言模型(Radford等人,2018;Brown等人,2020)和序列到序列语言模型(Raffel等人)等人,2020年;刘易斯等人,2020年)。同样,sequence-to-sequence语言模型以一定的掩码率破坏文本,并以自回归的方式预测被掩码的文本。T5(Raffeletal.,2020)也采用15%的maskingrate。研究人员计划扩展他们的研究,例如研究文本到文本模型以及探索掩蔽率与不同类型解码器之间的相互作用。有关更多详细信息,请参阅原始论文。
