当前位置: 首页 > 科技观察

另一种(深度)学习:自监督学习是下一件大事吗?

时间:2023-03-19 10:12:27 科技观察

自监督学习简介深度学习确实在一定程度上改变了机器学习,尤其是在图像识别任务上。2012年,Alex-net发起了一场(还远未结束)竞赛,以解决或至少显着改进计算机视觉任务。虽然主要思想非常扎实(对所有事物都使用深度神经网络),但研究人员采用了一种截然不同的方法:尝试优化模型架构。尝试优化您的训练计划,例如优化器。尝试优化数据,例如顺序、大小、多样性等。这些研究路径中的每一个都提高了训练质量(速度、准确性,有时还有泛化),但似乎这样做可能会导致增量改进但没有重大突破。另一方面,越来越多的深度学习工作表明当前的方法存在重大缺陷,尤其是在泛化方面,例如最近的一个:Generalizationfailswhenobjectsarerotated:somoreaggressiveimprovementsseemtobeneeded.或者将研究范围扩大到潜在风险更高的领域。除了上述方法外,还有一些方向可以尝试改变。N-categoryone-shotlearning半监督学习Domainadaptation自监督学习这些方法采用了几种不同的训练范式,尝试更具创造性,或者模仿一些类似人类的模式。虽然我们尚未从上述方法(和其他方法)中获得证据以取得重大突破,但它们确实取得了一些非常重要的结果,并且还教会了我们很多关于训练过程的知识。在这篇文章中,我将尝试讨论一些最有趣的方法:其中一些正在做的事情并将它们称为“不同种类的(深度)学习”。我绝不是在试图预测深度学习的未来,而只是展示一些最近可能没有受到关注的有趣工作。它可能只为读者服务一些目的:您可能有兴趣了解您不知道的作品。你可能会对你的工作有新的想法。你可以理解深度学习中你不理解的逻辑部分和任务之间的关系。本系列的第一部分将介绍自我监督学习,这是我编写本系列的主要动机之一。自监督学习想象一下,您有一个代理可以搜索网络并从它遇到的每张图像中无缝学习。这个概念很有意思,因为如果能够实现,深度学习的最大障碍,即标注数据将被(部分)去除。但是怎么办?最初它是在文本中提出的,由人类构造得很好,所以有很多概念可以从中学习,不需要任何注释。预测下一个/上一个词是一个突出的例子,就像在词嵌入和语言模型任务中所做的那样。在视觉中,这样的技巧有点复杂,因为视觉数据(图像和视频)并不是人类明确创造的(当然,有些摄影师可能会在他的摄影中投入一定的心思)但不是每个视频,而且绝对不是每个图像都有一些逻辑结构,可以从中提取信号。这不就是另一种形式的无监督学习吗?是的,但它有一个特殊的微妙之处:由于任务是有监督的(例如分类),因此不会发生有效的注释。这个话题是我最喜欢的,很快就成了本文的主题。我不能保证这本书会带来最好的深度学习,但它肯定会带来一些很棒的想法。这些任务称为自我监督学习。与“弱注释”不同,“弱注释”是指具有不同标签、标题或标题的图像,自监督任务不考虑注释,而是考虑图像本身。如果您想知道可以从没有注释的图像中学到什么,请继续关注。事不宜迟,让我们看看自监督领域的一些想法:着色图像中最直观的信号可能是它的颜色。当大多数计算机化的颜色表示有3个通道时,1或2个可以无缝地用作注释。由于为旧图像着色是一项非常有趣的任务,因此有很多工作可以解决这个问题。然而,如果我们考虑全自动着色(满足自我监督的标准),这个数字会大幅下降。这种情况下的着色任务形成为“跨通道编码器”,这意味着图像中的一个(或一些)通道用于对其他通道进行编码。这个概念将在以后的文章中进一步讨论。最著名的着色表是由RichardZhang和AlexeiEfros设计的。解决着色任务的一种常见方法是不使用标准RGB编码,而是使用Lab颜色空间。在Lab颜色空间中,L代表亮度(黑白强度),用于预测ab通道(a-绿色到红色,b-蓝色到黄色)。在实验室中编码着色正如我们将在讨论的所有任务中看到的那样,自我监督学习并不像我们在深度学习中习惯的那样简单。一些工件会中断模型实现其设计目标。此外,有时如果不仔细检查训练,模型会制造“捷径”,阻碍其泛化到其他任务。以下是着色任务的一些挑战:1.着色中固有的模糊性:很明显,对于某些图像,存在不止一种合理的着色。这个问题在训练和评估中引起了几个问题:在下面唐纳德特朗普的图像中,窗帘的颜色可以是红色或蓝色(还有许多其他颜色)。唐纳德的领带可以匹配(或不匹配)。给定数据集中不同的关系和窗帘示例,该模型将倾向于对它们进行平均,将这些项目着色为灰色。解决方案:在张的文章中,研究人员将着色视为分类问题,而不是回归问题。除了使用特殊的损失函数外,他们的模型还预测了一个概率分布层而不是图像的实际颜色,然后将这些概率转换为颜色——在Lab空间的313种可用颜色中:2.偏差:Lab不是均匀分布空间。由于云、路面等出现的频率高,大多数解决方案都倾向于较低的值。解决方案:对损失函数进行重新加权以解决此问题。3.评估问题:现在模型可以预测不同的答案是正确的,比如groundtruth是蓝色,模型会选择红色,在标准评估中会被认为是错误的。解决方案:使用不同的评估方法,包括:人工后分类——“着色图灵测试”,要求人们在真实图像和机器着色图像之间进行比较。此外,将图像输入图像分类器并将结果与??真实图像进行比较。该模型在ColorizationTuring测试中得分为35%,这还不错。在此图像中,机器色狗看起来比原始狗更逼真。在最近的另一篇论文中,Larson等人。与Zhang和Efros合作(两篇论文相互引用),并使用空间局部多层切片(超柱)和回归损失。他们试图通过预测颜色直方图并从中采样来克服歧义问题:除了使用LAB空间外,这项工作还试图预测与“HSV”颜色空间相关的Hue/Chroma属性。上下文除了颜色预测之外,下一个最明显(但也非常有创意)的任务是学习图像结构。更准确地说,试图预测有关图像裁剪的一些事情。这个任务直接受到word2vec的启发,或许我们可以称之为图像的“skipgram”。但是,在文本中,单词的数量受词汇量的限制,大概不会超过一百万。虽然图像块是逐个像素地完成的,但它存在于更大的空间中。你可能会争辩说GAN确实如此,但是:实际上确实存在大量正确的解决方案,因此很难概括。我们将在下一节讨论GAN。在这种范式中,实际任务不会自然出现:研究人员必须为模型提出“游戏”来解决。例如,通过一些突出的例子:拼接上下文填充的补丁似乎不能很好地泛化,因此研究转向了puzzle-like任务。第一个是Doersch和Efros的工作:从图像中裁剪出小块,然后训练一个模型来对它们之间的关系进行分类。举个例子简单解释一下:就像填色一样,任务并不简单。具体来说,该模型正在寻找一条“捷径”:它可能不会真正学习高级特征及其关系,而是学习一些低级特征,例如边缘和光照关系。这往往暗示图像部分。为了解决这个问题,研究人员对补丁应用了一些抖动(如图所示)。研究人员遇到的另一个问题是该模型通过一些照明伪影-色差来模拟预测点的位置。这意味着在某些相机中,颜色分布在图像的不同部分会有所不同。解决方案:这部分由一些颜色转换处理,特别是绿色和洋红色到灰色。下一个突出的结果是Noroozi和Favaro的这篇论文,一路上,它使用了一个更难的问题来解决完整的9部分拼图,但得到了更好的结果:研究人员应用了一个表现良好的pair-patchValidationofshuffling,以及每张图片的多次洗牌。ContextualEncoder同上,text中的word2vec补缺词。愿景中有这样的尝试吗?其实是有的。在本文中,Pathak等人。(当然还有Efros)尝试一些自动编码器模型来填充图像上的裁剪空间。结果表明这实际上是可能的,尤其是在添加了对抗性损失的情况下,它成功地避免了处理多种模态(如前所述),从而防止了模棱两可的“平均”结果。旋转在我们跳到下一个层次之前,我想提一下这个花絮:旋转预测。然后,本文采用一种创新的方法来预测图像旋转。除了具有创造性之外,旋转预测相对较快,并且不需要像我们之前看到的其他任务那样预先考虑来克服琐碎特征的学习。该论文还探索了一些“注意力图”,这些图显示了他们的网络专注于图像的重要部分:头部、眼睛等。同时报告了将学习迁移到ImageNet分类的最新结果(大多数其他工作是与pascal相关),审稿人发现论文中存在一些缺陷,因此必须做一些事情。概括那么我们从我们所做的所有这些工作中得到了什么?当然,给黑白图像着色很好,解决难题可能是一个有趣的演示应用程序,但更大的目标是在主要任务中取得更好的结果——尤其是分类、检测和分割。最常见的基准是VOCPascal数据集,当使用imagenet预训练时,stateoftheart是:Currentresultsare:Detectionresults好吧,看来我们还没有。虽然自监督数据实际上是无限的,但尚未开展任何工作来挑战“经典”基于Imagenet的迁移学习的结果。我们将在以后的帖子中讨论特定任务的一些不错的结果。除了上述任务的标准概括外,研究人员还利用这组任务的特定特征来尝试和概括一些其他任务,例如图像聚类(最近邻、可视化数据挖掘等)。总结下一步可能来自自我监督学习?也许,也许不是,但我相信探索这些不同的方法可以显着改善深度学习领域,并可能间接地对真正的突破产生积极影响。在下一篇文章中,我们将学习更多的想法和方法,从而产生一些有趣和新颖的结果。