自监督学习可以学习到各种任务中的层次特征,利用现实生活中可以使用的海量数据作为因此,向更通用的人工智能迈进是一种途径,也是深度学习三巨头之一、图灵奖获得者YannLeCun一直倡导的研究方向。LeCun认为:与强化学习相比,自监督学习(SSL)可以产生大量的反馈,并且可以预测其输入的任何部分(比如预测一段视频的未来画面),因此具有广泛的适用范围应用前景。自我监督学习通过直接观察环境而不是通过标记的图像、文本、音频和其他数据源来学习。然而,从不同模态(例如图像、文本、音频)中学习的方式存在很大差异。这种差异限制了自监督学习的广泛应用,例如,为理解图像而设计的强大算法不能直接应用于文本,从而难以以相同的速度推进多种模态。现在,MetaAI(前身为FacebookAI)提出了一种名为data2vec的自我监督学习新架构,该架构在多种模式的基准测试中优于现有的SOTA方法。data2vec是第一个用于多模态的高性能自监督算法。MetaAI分别将data2vec应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,在NLP任务上也取得了有竞争力的结果。此外,data2vec还代表了一种新的、全面的自我监督学习范式,它可以提高跨多种模式的进步,而不仅仅是一种。Data2vec不依赖于对比学习或输入示例的重建,除了有助于加速AI的进步外,data2vec还使我们更接近制造可以无缝理解周围世界不同方面的机器。data2vec使研究人员能够开发出更具适应性的人工智能,MetaAI认为它可以在各种任务上超越现有系统。论文地址:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language项目地址:https://github.com/pytorch/fairseq/tree/main/examples/data2vecMetaAI研究员AlexeiBaevski表示:我们发布了最新的SSL方法data2vec,与单独训练相比,我们在视觉、语音和NLP上有相同的预训练任务。SOTA。语音和文字的代码和模型已经发布,视觉模型代码来了!即将成为MetaCTO(AR、VR、AI、Portal等领导RealityLabs团队)的Boz也发了推文:很高兴data2vec可以帮助为跨多种模态的更通用的自监督学习铺平道路——这项工作还将对为我们正在构建的AR眼镜开发情境化AI产生重大影响。data2vec是如何工作的?大多数人工智能仍然基于监督学习,只适用于有标签数据的任务。但是,如果我们希望机器能够完成更多的任务,那么收集所有标记的数据将变得不现实。例如,虽然研究人员已经为创建大规模的英语语音和文本注释数据集做了大量工作,但这样做对于地球上数以千计的语言来说是不可行的。自我监督使计算机能够通过观察世界来了解世界,然后弄清楚图像、语音或文本的结构。不需要特殊训练来对图像进行分类或理解语音的机器也将具有更好的扩展性。data2vec通过在给定输入的部分视图(如下面的动画所示)的情况下预测完整的输入模型表示来进行训练:首先data2vec对训练样本的屏蔽版本(学生模型)进行编码,然后使用相同的模型参数进行指数移动转换为模型权重的平均值(教师模型)对输入样本的未屏蔽版本进行编码,以构建训练目标表示。目标表示对训练样本中的所有信息进行编码,学习任务是让学生在给定输入的部分视图的情况下预测这些表示。data2vec以相同的方式学习图像、语音和文本。模型架构MetaAI使用标准的Transformer架构(Vaswani等人,2017年):对于计算机视觉,MetaAI使用ViT策略将图像编码为一系列补丁,每个补丁跨越16x16像素,然后将其馈送到线性变换(Dosovitskiyetal.,2020;Baoetal.,2021)。语音数据使用多层一维卷积神经网络进行编码,该网络将16kHz波形映射到50Hz表示(Baevski等人,2020b)。对文本进行预处理以获得子词单元(Sennrich等人,2016年;Devlin等人,2019年),然后通过学习的嵌入向量将其嵌入到分布空间中。data2vec还可以为不同的模态预测不同的单位:图像的像素或视觉标记、文本的单词和语音的学习列表。像素集合与音频波形或文本段落非常不同,因此算法设计与特定模态紧密相关。这意味着该算法在每种模式下的功能仍然不同。Mask:在将输入样本嵌入为token序列后,MetaAI将部分掩码单元替换为学习到的掩码嵌入token,并将该序列馈送到Transformer网络。对于计算机视觉,MetaAI遵循Bao等人的block-wise策略;对于语音,MetaAI掩盖了潜在语音表示的范围;对于语言,MetaAI使用掩码标记。TrainingGoal:MetaAI预测的representation是contextualrepresentation,不仅编码了特定的时间步长,还编码了样本中的其他信息,由于在Transformer网络中使用了self-attention,这和BERT一样,wav2vec2.0或BEiT、MAE、SimMIM和MaskFeat之间的一个重要区别是,这些预测目标缺乏上下文信息。针对多种模式:data2vec通过训练模型来预测输入数据的表示来简化其方法。没有办法预测视觉标记、单词、声音等,而是专注于预测输入数据的表示,单个算法可以处理完全不同类型的输入。这消除了学习任务中对特定模态目标的依赖。直接预测表示并非易事,它需要为跨不同模式可靠的任务定义稳健的特征归一化。该研究使用教师网络首先从图像、文本或语音中计算目标表示。然后屏蔽部分输入并使用学生网络重复该过程,然后学生网络预测教师网络的潜在表示。即使只能看到部分信息,学生模型也必须预测完整输入数据的表示。教师网络与学生模型相同,但权重略有不同。实验和结果该研究在ImageNet计算机视觉基准上测试了该方法,结果如下。data2vecforcomputervision:ViT-B模型与其他方法在ImageNetbenchmark上的性能对比结果。data2vec应用于语音:使用10h标记数据的Base模型与其他方法在LibriSpeech基准测试中的性能比较,较低的错误率导致更好的性能。应用于文本的data2vec:在使用原始BERT设置重新训练时,与RoBERTa相比,基于GLUE自然语言理解基准的模型性能。分数越高,性能越好。LearningfromObservation自监督学习在计算机视觉、视频和许多其他模式方面取得了长足进步。这种方法的核心思想是更广泛地学习,以便AI可以学习执行各种任务,包括以前从未见过的任务。研究人员希望机器不仅能够识别训练数据中显示的动物,还能识别给出描述的新生物。data2vec证明其自监督算法可以跨多种模式表现良好,甚至优于现有的最佳算法。这为更普遍的自我监督学习铺平了道路,并使AI更接近使用视频、文本和音频来了解复杂世界的目标。由于收集高质量数据的成本很高,该研究还希望data2vec能让计算机用很少的标记数据来完成任务。data2vec是迈向更通用人工智能的重要一步,并且在未来有望消除对特定模态特征提取器的需求。
