2022Top10自监督学习模型发布!自我监督学习使计算机能够通过学习图像、语音或文本的结构来观察世界和理解世界。这推动了人工智能最近的许多重大进步??。尽管全世界的研究人员都在这一领域投入了大量精力,但目前自监督学习算法从图像、语音、文本和其他模式中学习的方式存在显着差异。因此,人工智能论坛AnalyticsIndiaMagazine为读者推出了2022年十大自监督学习模型。Data2vec论文链接:https://arxiv.org/pdf/2202.03555.pdf开源代码:https://t.co/3x8VCwGI2xpic.twitter.com/Q9TNDg1pajMetaAI在1月份发布了data2vec算法,用于语音、图像计算机与文本关联的视觉模型。据AI团队介绍,该模型在NLP任务中具有很强的竞争力。它不使用对比学习或依赖输入示例的重建。根据MetaAI团队的说法,data2vec通过提供输入数据的部分视图来进行训练,以制作预测模型表示。“我们首先在学生模型中对屏蔽的训练样本进行编码。然后,在同一模型中,我们对未屏蔽的输入样本进行编码以构建训练目标。该模型(教师模型)和学生模型只有参数。”该模型基于屏蔽训练样本预测未屏蔽训练样本的模型表示。这消除了学习任务中对模态特定目标的依赖。ConvNext论文链接:https://arxiv.org/pdf/2201.03545.pdf打开源码:https://t.co/nWx2KFtl7XConvNext,又名ConvNetmodelforthe2020s,是MetaAI团队3月份发布的模型,完全基于ConvNet的modules,所以准确,简单VICReg论文链接:https://t.co/H7crDPHCHV开源代码:https://t.co/oadSBT61P3方差不变协方差正则化(VICReg)将方差项与基于冗余减少的去相关机制和协方差正则化相结合避免编码器产生常量或无信息向量的崩溃。VICReg不需要分支之间的权重共享、批归一化、特征归一化、输出量化、停止梯度、记忆库等技术,并在多个下游任务上取得了与最先进技术相当的结果。此外,实验证明方差正则化项可以稳定其他方法的训练并促进性能提升。STEGO论文链接:https://arxiv.org/abs/2203.08414麻省理工学院的计算机科学与人工智能实验室与微软和康奈尔大学合作开发了一种用于基于能量的图优化(STEGO)的自监督变压器,以解决一个计算机视觉中最困难的任务之一:在没有人工监督的情况下为图像的每个像素分配标签。STEGO学习“语义分割”——简单来说,就是为图像中的每个像素分配一个标签。语义分割是当今计算机视觉系统的一项重要技能,因为图像可能会受到对象的干扰。更难的是,这些对象并不总是适合文本框。与植被、天空和土豆泥等难以量化的事物相比,算法往往更适合处理人和汽车等离散“事物”。以狗在公园玩耍的场景为例。以前的系统可能只能识别狗,但通过为图像的每个像素分配一个标签,STEGO可以将图像分解为几个主要部分:狗、天空、草及其主人。能够“看到世界”的机器对于从自动驾驶汽车到医疗诊断预测模型等新兴技术至关重要。由于STEGO可以在没有标签的情况下进行学习,因此它可以检测不同领域的对象,甚至是人类尚未完全理解的对象。CoBERT论文链接:https://arxiv.org/pdf/2210.04062.pdf对于自监督语音表示学习,香港中文大学(深圳)的研究人员提出了CodeBERT(CoBERT)。与其他自蒸馏方法不同,他们的模型预测来自不同模态的表征。该模型将语音转换为一系列离散代码以进行表示学习。首先,研究团队使用HuBERT预训练代码模型在离散空间进行训练。然后他们将代码模型提炼成语音模型,旨在跨模态进行更好的学习。ST任务的显着改进表明CoBERT的表示可能比以前的工作携带更多的语言信息。CoBERT在ASR任务上的性能优于最先进的算法,并在SUPERB语音翻译(ST)任务中带来显着改进。FedX论文链接:https://arxiv.org/abs/2207.09158FedX是微软、清华大学和韩国科学技术研究院联合推出的无监督联邦学习框架。通过局部和全局知识蒸馏和对比学习,该算法从离散和异构的局部数据中学习无偏表示。此外,它是一种适应性强的算法,可以用作联邦学习环境中各种现有自监督算法的附加模块。TriBYOL论文链接:https://arxiv.org/pdf/2206.03012.pdf日本北海道大学提出了TriBYOL用于小批量自监督表征学习。在这种模型下,研究人员不需要大量的计算资源来学习好的表征。该模型是三重网络结构结合三视图损失,提高了效率并优于多个数据集上的几种自监督算法。ColloSSL论文链接:https://arxiv.org/pdf/2202.00758.pdf诺基亚贝尔实验室的研究人员与佐治亚理工学院和剑桥大学合作开发了ColloSSL,这是一种用于人类活动识别的协作式自我监督算法。多个设备同时捕获的未标记传感器数据集可以被视为彼此的自然转换,然后生成用于表征学习的信号。本文提出了三种方法——设备选择、对比采样和多视图对比损失。LoRot论文链接:https://arxiv.org/pdf/2207.10023.pdf成均馆大学研究团队提出了一个简单的自监督辅助任务,预测具有三个属性的可定位旋转(LoRot)以辅助监督目标。这种模式具有三个特点。首先,研究团队引导模型学习丰富的特征。其次,分布式训练在自我监督转变的同时不会发生显着变化。三是模型轻巧通用,对以往技术的适应性强。TS2Vec论文链接:https://arxiv.org/pdf/2106.10466.pdf微软和北京大学提出了一个通用的学习框架TS2Vec,用于时间序列在任何语义级别的表示学习。该模型在增强上下文视图中以分层技术执行对比学习,为各个时间戳提供强大的上下文表示。结果表明,与最先进的无监督时间序列表示学习相比,TS2Vec模型实现了显着的性能改进。2022年,自监督学习和强化学习这两个领域都会有巨大的创新。尽管研究人员一直在争论哪个更重要,但正如自监督学习大师YannLeCun所说:“强化学习就像蛋糕上的樱桃,监督学习是锦上添花,而自监督学习是蛋糕本身。“参考:https://analyticsindiamag.com/top-10-self-supervised-learning-models-in-2022/
