当前位置: 首页 > 科技观察

清华大学、DeepMind等指出现有的小样本学习方法并不稳定和有效,并提出了评估框架

时间:2023-03-17 15:45:52 科技观察

评估标准的差异极大地阻碍了现有基于a的小样本学习方法的公平比较。统一的标准,无法客观评价这一领域真正的进步。近日,清华大学、DeepMind等团队的研究人员在论文中指出《FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding》:现有的小样本学习方法都不稳定有效,没有一种单一的小样本学习方法可以对大多数NLU任务执行.获得卓越的性能。小样本自然语言理解的发展仍面临严峻挑战!该工作被ACL2022主会接收。论文地址:https://arxiv.org/abs/2109.12742项目地址:https://github.com/THUDM/FewNLULeaderboard地址:https://fewnlu.github.io/本文贡献如下:(1)研究提出了一种新的小样本自然语言理解评估框架FewNLU,从三个关键方面(即测试集的小样本学习性能、测试集与模型之间的相关性)定量评价了该评估准则的优势验证集和稳定性)。(2)研究者重新评估了该领域的相关工作,结果表明:现有工作没有准确估计现有小样本学习方法的绝对性能和相对差距;没有一种方法可以在大多数NLU任务中取得优异的性能。方法;不同方法的增益是互补的,最佳组合模型的性能接近全监督NLU系统等关键结论。(3)此外,本文提出了FewNLU并建立了Leaderboard,希望有助于推动小样本自然语言理解领域未来研究工作的发展。few-shot自然语言理解评价框架模型选择是否需要模型选择?初步实验结果表明(如表1所示),与大多数现有作品一样,基于一组预先固定的超参数(基于以前的实验经验)的实验设置并不是最优的。实验条件的微小变化或扰动会导致性能的急剧波动。基于一个小的验证集,在不同的实验中分别进行模型选择是必不可少的。小样本自然语言理解评估框架基于以上结论,本文提出了一种更健壮有效的小样本自然语言理解评估框架,如算法1所示。该评估框架中的两个关键设计选择是如何结构数据拆分并识别关键搜索超参数。如何构造数据拆分?本文首先提出了数据拆分构建的三个关键指标:(1)最终测试集的小样本学习性能,(2)测试集和验证集之间关于超参数空间分布的相关性,(3)关于实验执行次数的稳定性。基于此,本文对多种不同的数据拆分策略进行了定量实验和讨论,包括(1)K-折交叉验证(K-FoldCV)[2],(2)最短描述距离(MDL)[2]、(3)Bagging[9]、(4)随机抽样策略(5)模型引导的分裂策略(6)以及本文提出的多重数据划分(Multi-Splits)。实验结果如表2、表3和图1所示。表2和表3的实验结果表明,Multi-Splits在小样本性能和相关性方面是优于其他几种基准方案的数据拆分策略。另外,从图1可以看出,Multi-Splits的优势还在于增加执行次数K的值不会影响训练集和验证集的数据量,相反会进一步增加结果的置信度,所以在实验过程中,可以随时选择尽可能增大K的值。但是,对于CV和MDL,较大的K值会导致失效(FailureMode),较小的K值会导致高度随机和不稳定的结果;同时,很难先验地知道如何在实践中设定该值。因此,Multi-Splits是一种更实用的数据拆分策略。小样本学习方法的重新评估本文基于统一的评估框架,对最先进的小样本学习方法进行了重新评估。本文还尝试探索通过组合不同的小样本学习方法和技术可以实现的最佳性能(如表5中的“OurBest”所示)。再评价实验的结果如表所示。对结果的重新评估揭示了以下关键结论:结论1:以前的文献没有准确估计few-shot学习方法的绝对和相对性能差异。此外,小样本方法(如ADAPET)在像DeBERTa这样的大模型上的优势将被显着降低。半监督少样本方法(如iPET和NoisyStudent)的收益也与较大的模型一致。结论2:不同few-shot学习方法的收益在很大程度上是互补的。通过结合各种最先进的方法,他们可以在很大程度上实现比任何单一方法更好的小样本学习性能。当前最佳组合方法的少样本学习性能接近于在RoBERTa上实现的全监督性能;然而,与目前在DeBERTa上实现的最佳全监督性能相比,它仍然有很大差异。结论3:现有相关工作中没有单一的小样本学习方法可以在大多数NLU任务上取得优势性能。这对未来进一步开发具有跨任务一致性和鲁棒性的小样本学习方法提出了新的挑战。