当前位置: 首页 > 科技观察

微软朱晨光:预训练模型的下一步是什么?突破PLM的“不可能三角”

时间:2023-03-17 09:58:26 科技观察

近年来,大规模预训练语言模型(PLM)显着提升了各种NLP任务的性能。从BERT和GPT-2开始,自监督预训练+监督微调的范式取得了巨大成功,刷新了语义相似度、机器阅读理解、常识推理、文本等多个NLP领域的SOTA成果总结。此外,中型PLM可实现广泛而快速的模型微调和调整。然而,在许多实际的、特别是新颖的NLP场景中,受限于预算或时间,用于有效微调的标记数据极其有限。这种情况刺激了零样本和少样本NLP模型的发展。从GPT-3开始,超大规模PLM(SL-PLM)在仅给出任务描述和可能的一些手动示例时,在一般NLP任务上表现出了更强的性能。在以前的中型PLM中还没有观察到这种能力。然而,SL-PLM前所未有的规模也在很大程度上限制了它们的广泛应用。小型科技公司和研究人员难以获得足够的计算资源来加载这些模型,更不用说有效地部署和可能的微调它们了。近日,微软认知服务研究中心(CSR)的两位研究人员在他们的新论文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中展望了未来的预训练语言模型。论文第一作者朱承光,本科毕业于清华姚班,博士研究生毕业。他于2016年从斯坦福大学毕业。随后他转到微软,目前担任CSR首席研究经理。论文地址:https://arxiv.org/pdf/2204.06130.pdf他们首先基于不可能三角的概念阐述了使用PLM模型的难点,其中不可能三角包括中等模型规模和小SOTA样本的学习能力和SOTA微调能力。据研究人员称,所有现有的PLM模型都缺少不可能三角形中的一个或多个属性。为了弥补PLM的这些缺失特性,人们提出了各种技术,例如知识蒸馏、数据扩充和提示学习,这不可避免地给PLM在实际场景中的应用带来了额外的工作。针对这些情况,研究人员对PLM未来的研究方向提出了自己的见解,以实现不可能三角,并将任务分解为三个关键阶段。不可能三角本研究使用“不可能三角”的经济学理论来描述目前PLM研究中遇到的障碍,如图1所示。这个三角形描述了有效使用PLM的三个关键属性:P1代表模型大小,P2代表SOTA小样本学习能力,P3代表SOTA自监督学习能力。这三个要素对应PLM在实际应用中的三个需求:P1用于高效部署,计算资源量合理;P2用于标记数据为零或很少的场景;P3用于标签数据丰富的场景。存在不可能三角的一个潜在原因是,在当前阶段,只有当PLM足够大和容量足够大时,小样本学习能力才会出现。虽然有研究设计了中等规模的PLM(如iPET)来实现比GPT-3更好的小样本学习能力,但是这个模型被后来的SL-PLM所超越,然后随着模型的不断扩大,零样本或者不断提高小样本学习性能。例如,与具有8B和62B参数的模型变体相比,具有540B参数的PaLM在许多任务上的准确性都有很大提高。因此,在保持卓越的监督学习能力的同时,开发具有最先进的零/少样本学习性能的中等规模模型仍然是一个巨大的挑战。尽管没有PLM实现不可能三角中的所有三个属性,但它们中的许多已经获得了以下功能中的一两个:有效地调整和部署。这些模型在常见的NLP任务(例如GLUE基准、文本摘要、开放域问答、试验推理)上实现了最先进的性能。然而,此类模型通常具有相对较弱的零/少样本学习能力,这意味着这些模型的使用依赖于目标域中足够的标记数据。超大规模PLM(P2):这些语言模型是超大规模的,具有1到1万亿个参数,并且在大规模数据上进行了预训练。例如,具有5400亿个参数的PaLM在具有7800亿个标记的不同文本语料库上进行了预训练。当给定提示任务描述和少量输入-输出样本对时,此类模型在通用零/少样本NLP任务上实现了SOTA性能。然而,总的来说,SL-PLM的零/少镜头性能低于监督训练模型;fine-tuning之后,很多SL-PLM的性能还是低于fine-tuned最好的medium-sizedPLM,可能是因为这个类模型的size很大,很难fine-tune。目前有哪些补偿方法由于不可能三角关系的存在,研究人员采取了不同的解决措施。可以概括如下:巨大的模型尺寸(缺少P1)。当SL-PLM在微调后表现出出色的少样本学习能力和强大的性能时,就会发生这种情况。为了获得与SL-PLM性能相似的中等大小的模型,一种常见的做法是知识蒸馏(KD)。在KD中,较大的模型充当教师,较小的模型充当学生,学生从教师的预测分布或参数中学习。知识蒸馏在创建更高效??的模型方面非常有效,但性能略有下降。然而,知识蒸馏仍然存在两个问题:第一,学生模型很难达到与教师模型相同的性能;其次,SL-PLM的大尺寸阻碍了推理,不方便用作教师模型。Poorzero/few-shotperformance(missingP2):这种情况最常见于中等规模的PLM,微调后可以达到SOTA性能,但零/few-shot学习能力相对较低。当缺乏足够的标记数据时,部署这样的模型是更可取的。数据增强是一种常见的方法,通过从其他模型或噪声注入生成伪标签和伪数据实例,该模型可以利用这些额外的数据进行有效的监督训练。然而,假数据的质量参差不齐以及不同任务中数据类型的多样性对普遍适用的解决方案提出了挑战。监督训练性能差(缺少P3):这在微调SL-PLM时很典型,计算资源有限或训练数据量不足以调整非常大的模型。一个典型的解决方案是及时学习。可以利用硬提示(即离散文本模板)或软提示(即连续模板),以便在微调期间仅更新硬提示词或软提示参数。这已被证明在给定标记数据的情况下提高SL-PLM的性能非常有效。然而,这种方法对提示的设计非常敏感,不如具有监督学习的中等规模PLM有效。三个关键阶段虽然目前的NLP模型中存在不可能三角,但研究人员认为可以通过以下三个阶段来解决。第1阶段:PLM开发的目标是实现三角形的某些所需属性,同时改进其他缺失的属性。例如,具有SOTA监督学习的中型模型可以提高其少样本学习性能;或SL-PLMwithfew-shotlearning可以压缩成一个更小的模型,具有更强的监督学习性能。第2阶段:开发PLM,在NER或文本摘要等少数NLP任务之一上实现所有三个所需属性。为此,我们可以利用目标任务的独特属性,例如性能对训练数据大小的依赖程度较低,零/小样本与监督学习性能之间的差距较小等。第3阶段:建立在进展之上在第1阶段和第2阶段,开发一个PLM,该PLM在一般NLP任务上实现所有三个所需的属性。潜在的方法包括用更大的数据预训练中等规模的模型,开发更好的知识蒸馏,推广数据增强方法等。一旦PLM模型在一般NLP任务上具有不可能三角形的所有三个属性,它将改变NLP的整体情况研究和应用,促进快速、高效、高质量的模型开发和部署。