当前位置: 首页 > 科技观察

LeCun看了说是的!MetaAI一次处理三个SOTA

时间:2023-03-13 23:23:43 科技观察

人的语音、视觉和文本。一个人的智力是“多模态学习”的总和,即跨越分类边界理解和传递不同来源或形式的信息和经验的能力。例如,当一个人在自然频道看过一部老虎纪录片,然后听到别人描述“一只白额猫在吹口哨吹着风”,他就可以通过这种语言描述,结合自己之前的观看结果,知道别人正在描述一只老虎。连忙跑去滑铲子。让人工智能达到同样的多模态学习效果,是一项极具挑战和回报的工作。独立处理声音、图像和文本数据的单一算法无论多么引人注目,如果不能在不同模态的数据之间传递,它终究不如算法。一个单一的基础框架可以普遍用于图像识别、音频模式检测、各种数据的自然语言处理。MetaAI研究组的data2vec算法已经做到了。研究团队在他们的博客中表示,为了让机器学习更接近人类智能,需要克服现有的针对不同模态数据的自监督学习算法之间的差距。论文链接:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language开源项目:https://github。com/pytorch/fairseq/tree/main/examples/data2vec为此,LeCun也发文表示祝贺:“data2vec在ImageNet(视觉)、LibriSpeech(语音识别)和GLU(NLP)上的结果更好比现有的SOTA。”data2vec:目前横跨CV、NLP和语音的主流人工智能仍然依赖于基于标记数据的监督学习。这种类型的“监督学习”非常擅长训练专门的模型,这些模型通常在他们接受训练的任务上表现非常出色。但是,有了“拐杖”的AI在标注数据不足的领域很容易翻车,科学家们为AI精心打造一根“拐杖”未免有些过分。例如,各国的研究人员在为本国的语音和文本创建大规模标记数据集方面做了大量工作,但对于地球上数千种语言都不可能做到这一点。这时候就需要“自监督学习”了。自我监督使计算机能够通过自己的观察来确定图像、语音或文本的结构,而不是从带注释的图像、文本、音频和其他数据源中了解世界。但目前的自我监督学习算法在从图像、语音、文本和其他模式中学习的方式上差异很大。算法为每种模式预测不同的单位:图像的像素或视觉注释、文本的单词和语音的声音学习目录。一组像素与音频波形或一段文本非常不同,因此,算法设计始终与特定模态相关联,这意味着算法在每种模态中的工作方式不同。这种差异一直是自我监督学习在更大范围内应用的重要障碍。由于旨在理解图像的强大算法不能直接应用于另一种模态,例如文本,因此很难以相同的速度推进多种模态。而data2vec是第一个适用于多模态的高性能自监督算法,可分别应用于语音、图像和文本。任务也是有竞争力的。data2vec的提出代表了一种新的整体自监督学习范式,它不仅提高了模型在多种模态下的性能,而且不依赖于对比学习或输入实例的重建。data2vec通过训练模型来预测它们自己的输入数据表示,而不管模式如何。从这些表示中,而不是预测视觉注释、单词或声音,单个算法可以处理完全不同类型的输入,从而消除学习任务中对特定模态目标的依赖。然而,在预测表示之前,有必要定义一个标准化的特征,该特征在任务的不同模式下都具有鲁棒性。data2vec使用教师模型首先从图像、文本或语音语调中计算目标表示。接下来,屏蔽部分输入,对学生模型重复该过程,然后预测教师的潜在表示。学生模型必须预测整个输入数据的表示,即使它只看到了部分信息。SOTA三重计算机视觉作者对来自ImageNet-1K训练集的图像进行了预训练data2vec,并使用来自同一基准的标记数据微调了生成的图像分类模型。对于需要为每幅图像预测单个标签的下游任务,作者通过在均值池表示的基础上堆叠一个softmax归一化分类器来实现这一点。结果表明,data2vec优于之前使用ViT-B和ViT-L的工作。与预测原始输入像素、工程图像特征或视觉注释等局部对象的方法相比,在掩模预测设置中预测上下文潜在表示表现得非常好。此外,data2vec也优于目前的SOTA自蒸馏方法。语音处理团队使用来自Librispeech(LS-960)的960小时语音音频数据对data2vec进行了预训练。该数据集包含来自英语有声读物的相对清晰的音频。undefined此外,研究团队还表示:“实验中处理的latentrepresentationvariables并不是三模态数据的混合编码。我们仍然在单一过程中处理单模态数据。但是,这个项目的主要创新是”但是,data2vec的多模态通用神经网络也不是没有缺点:它必须依赖Modal标记数据,图像、语音、文本等数据必须经过预处理才能得到模态分类,然后将这些数据类型线索馈送到data2vec,用论文的原话来说,叫做“smallmodality-dependentencoderinput”。然而,真正的人类智能不需要预处理数据和分类“这是来自文本源的知识,这是由二叔”。作者介绍徐伟宁,元人工智能课题组资深研究科学家,毕业于麻省理工学院,博士,研究方向为表征学习、自监督学习和语音识别.JiataoGuJiataoGu是元人工智能研究组的研究科学家,香港大学电机工程博士,研究方向为自然局域网量表处理和深度学习。徐前桐,元人工智能课题组高级研究工程师,研究方向为对话模态识别的声波建模和语言建模。