当前位置: 首页 > 科技观察

多模态再次统一!Meta发布自监督算法data2vec2.0:训练效率提升高达16倍!

时间:2023-03-17 13:18:47 科技观察

近年来,人工智能领域的大部分突破都是由自监督学习驱动的,比如BERT中提出的MLM(MaskedLanguageModel)。用于训练模型,从此开启了大规模预训练模型的新时代。然而,自监督学习算法也有明显的局限性,通常只适用于单一模态的数据(如图像、文本、语音等),需要大量的计算能力才能从海量数据中学习。相比之下,人类的学习效率明显高于当前的AI模型,并且可以从不同类型的数据中学习。2022年1月,MetaAI发布了自监督学习框架data2vec,将三种模态(语音、视觉和文本)的数据通过一个框架进行整合,具有统一多模态的趋势。近日,MetaAI发布了data2cec2.0版本,主要在性能方面对上一代进行了提升:在相同精度的情况下,训练速度比其他算法快16倍!论文链接:https://ai.facebook.com/research/publications/efficient-self-supervised-learning-with-contextualized-target-representations-for-vision-speech-and-language代码链接:https://github.com/facebookokresearch/fairseq/tree/main/examples/data2vecdata2vec1.0目前大部分机器学习模型还是基于监督学习模型,需要专门的labeler对目标数据进行标注,但是对于一些任务(例如地球上成千上万种人类语言),收集标记数据是不可行的。相比之下,自监督学习不需要告诉模型什么是对什么是错,而是让机器通过观察世界来学习图像、语音和文本的结构。相关研究成果推动了语音(如wave2vec2.0)、计算机视觉(如maskedautoencoders)和自然语言处理(如BERT)的发展。data2vec的主要思想是先建立一个teachernetwork,先从图像、文本或语音中计算出目标表示。然后屏蔽数据以屏蔽掉部分输入,并使用学生网络重复该过程以预测教师模型获得的表示。也就是说,学生模型在接受“不完整的输入信息”时,只能预测“完整的输入数据”的表示。为了保证两个模型的一致性,两者的参数是共享的,但是Teacher模型的参数在训练初期会更新得更快。在实验结果中,data2vec在语音、视觉、文本等任务上明显提升了baseline模型的性能。data2vec2.0data2vec提出了一个通用的自监督学习框架,统一了语音、视觉和语言三种模态数据的学习,而data2vec2.0解决的主要痛点是构建自监督模型需要大量的GPU算力支持完成train。与最初的data2vec算法类似,data2vec2.0预测数据的上下文表示(contextualizedrepresentations),或神经网络层,而不是预测图像的像素、文本片段中的单词或语音。与其他常见算法不同,这些所谓的目标表示是上下文化的,这意味着该算法需要考虑整个训练示例。例如,模型学习到bank这个词的表示是基于包含bank的整个句子,更容易推断出这个词的正确含义,比如区分它是特指“金融机构”还是“土地”在河边”。研究人员认为,情境化目标有助于更丰富的学习任务,并允许data2vec2.0比其他算法学习得更快。data2vec2.0通过以下三种方式提高了原始data2vec算法的效率:1.为特定的训练示例构建目标表示,并在掩码版本上重用该表示。在屏蔽版本中,训练示例的不同部分被随机隐藏。然后将两个版本学习的表征输入学生模型,以预测不同掩码版本的相同上下文目标表征,有效地分摊创建目标表征所需的计算。2.与maskedautoencoder(MAE)类似,学生模型中的编码器网络不使用训练样本的空白部分(blankedout)。在图像实验中,大约80%的部分是空白的,从而显着节省了计算周期。3、使用了更有效的decoder模型,不再依赖Transformer网络,而是依赖多层卷积网络。实验部分为了更直观地了解data2vec2.0比data2vec和其他类似算法的效率高多少,研究人员对计算机视觉、语音和文本任务相关的基准进行了广泛的实验。实验中主要考虑最终的准确率和预训练模型所需的时间。实验环境都是在同一个硬件上(GPU型号、数量等)来衡量算法的运行速度。在计算机视觉任务上,研究人员在标准ImageNet-1K图像分类基准上评估了data2vec2.0,模型通过该基准学习图像表示。实验结果表明,data2vec2.0的精度可以与MaskedAutoencoder(MAE)相当,但速度要快16倍。如果你继续给data2vec2.0算法更多的运行时间,它可以获得更高的精度并且仍然比MAE更快。在语音任务上,研究人员在LibriLanguage语音识别基准测试中进行了测试,准确率是wave2vec2.0的11倍以上。对于自然语言处理任务,研究人员在通用语言理解评估(GLUE)基准上评估了data2vec2.0,以一半的训练时间实现了与BERT的重新实现RoBERTa相同的准确率。