当前位置: 首页 > 科技观察

寻找缺失信号:无监督学习的诸多挑战

时间:2023-03-17 23:23:31 科技观察

无监督特征学习当前趋势概述:回归随机目标的流形学习、探索描述视觉特征的因果关系以及强化学习中的辅助控制任务增强的目的性并通过自我模拟进行预训练。有很多信息可以从未标记的数据中挖掘出来,而我们目前的监督学习似乎只是掠过数据蛋糕的表面。2017年无监督学习领域发生了什么?在这篇文章中,我将对最近的一些工作进展做一个个人概述。“无监督学习是机器学习中长期存在的挑战,被认为是人工智能的关键要素,”YannLeCun解释道。在相当程度上,我们忽略了未标记数据中的大量信息,一般认为人脑在学习的大部分时间都处于非监督状态,可以处理未标记信息。或许看看下面大名鼎鼎的“YannLeCun'sCake”,你就会有更深入的了解。事实上,通过相当数量的标记样本训练机器可能对理解我们的学习机制很有帮助,但是在寻找现象的内在规律时;当对异常现象感到震惊并试图寻找规律时;;这些场景都不需要有人在通过游戏训练技能时明确告诉你哪些在理论上是好的,哪些是坏的。诚然,这些示例有些武断,但这些是我从本文所涵盖的论文中获得的一些想法。下面提到的所有想法都有一个共同点:在未触及的数据上找到一种自我监督的方法是不太可能的。那么,我们需要在未标记数据中寻找哪些信号?或者,如何在没有任何监督的情况下学习特征?《Unsupervised learning by predicting the noise》这篇论文给出了一个很不一般的答案,就是噪声。我认为这篇论文是今年ICML会议上最重要的研究之一。论文的思路是这样的:每个样本相当于超球体上的一个向量,向量标记了数据点在其上的位置。实际上,学习过程相当于用随机向量匹配图像,在深度卷积网络中训练,通过监督学习最小化损失函数。特别是,训练过程在使用网络参数的梯度下降和不同图像的伪目标重置之间交替进行,最终也是为了最小化损失函数。此处显示的图像特征的结果来自ImageNet。两者都是在ImageNet上训练一个AlexNet的结果,左边的是基于目标函数的,右边的是使用其提出的无监督学习方法。这种方法可以说代表了迁移学习算法探索中的state-of-the-art,但是为什么这种方法行得通呢?我的解释是:网络学会了用新的表示空间重新表示超球面上的矩阵。这可以称为内在流形学习。通过打乱排列来优化是一个非常关键的方法,毕竟在新的表示空间中,不恰当的匹配不能使相似的图像位于相似的位置。此外,通常情况下,网络必须充当信息瓶颈。否则,由于容量限制,该模型将学习不完整的一对一对应关系,从而为表示添加大量噪声(感谢Mevlana强调了这一点)。如此丰硕的成果来自于如此逆天的想法——我的意思是,论文的作者想要这种效果,看看标题就知道了——它只是在不断强调你不应该使用注释来查找数据,即使目标有很复杂的视觉特征。见论文《Optimizing the Latent Space of Generative Networks》。从图像中寻找因果关系[Lopez-Paz等。CVPR17](https://arxiv.org/abs/1605.08179)我的下一个发现来自LéonBottou的一篇很有启发性和争议性的报告寻找丢失的信号(https://www.youtube.com/watch?v=DfJeaa--xO0&t=12s)(是的,本文作者盗用了他的标题)发现另一半来自他们的WGAN,这是关于因果关系的。但在我们这样做之前,让我们退后一步,看看因果关系如何与我们的讨论联系起来。见论文《Discovering Causal Signals in Images》。如果你通过机器学习理解因果关系,你很快就会得出结论,在整个图形区域中缺少某些东西,而不太关注它的上下文。我们创建了一整套方法,只需关注它们在训练数据中的联系,就可以将它们关联起来并做出预测。但实际上这在很多情况下是行不通的。如果我们可以将因果关系考虑因素纳入模型训练会怎样?基本上,我们可以防止我们的卷积网络宣布图片中的动物是狮子,因为背景表明它是典型的热带景观。草原?很多人都在朝这个方向努力。这篇文章也想证实“图像数据的高级统计描述可以理解因果关系”的想法。更准确地说,作者推测物体特征和非因果特征密切相关,而环境特征和因果特征不一定相互关联。环境特征提供背景,而对象特征是数据集中的边界属性。在图片中,它们分别指的是热带草原和狮子鬃毛。另一方面,“因果特征是导致图中对象行为的原因(即,这些特征决定了对象的类标签),而非因果特征是由图中对象的表示引起的(即是,那些特征是由类标签决定的)。”在我们的示例中,因果特征是大草原的视觉图案,非因果特征是狮子的鬃毛。他们是如何进行实验的?太简短的描述会产生偏见,我会尽量避免。首先,我们需要训练一个检测器来找到因果关系的方向。这一想法源于过去大量工作证实“加性因果模型”会在检测过程中留下统计痕迹。(如果这听起来太陌生,我建议先看看参考资料。)这个想法是通过神经网络学习捕捉这些统计痕迹,它可以用来区分因果和非因果特征(用于二元分类)。此类网络只能在标有真正因果关系的数据上进行训练,而此类数据很少见。然而在实践中,这些数据很容易通过设置一对因果变量并用单个符号表示因果关系来合成。到目前为止,还没有人以这种方式使用数据。其次,图像的两个版本,无论是对象还是蒙版图像,都由标准的深度残差网络表征。一些目标和背景分数被设计为特征顶部,作为代表目标/背景的信号。现在我们可以通过因果关系或非因果关系将图像中的物体和环境联系起来。这导致,例如,“具有***非因果分数的特征比具有***因果分数的特征表现出更高的对象分数。”通过实验证实这个猜想,结果暗示现在,图像中的因果关系实际上是指物体和背景之间的差异。这一结果证明了它开辟新研究领域的潜力。从理论上讲,一种能够更好地检测因果方向的算法应该能够在数据分布发生变化时更好地提取和学习特征。见论文:《Causal inference using invariant prediction: identification and confidence intervals》、《Causal Effect Inference with Deep Latent-Variable Models》。ReinforcementLearningforUnsupervisedAuxiliaryTasks:《Reinforcement Learning with Unsupervised Auxiliary Tasks》这篇论文以今天的标准看来可能有点平淡无奇,毕竟,截至撰写本文时,它已被引用60次——自11月16日在arXiv上发表以来。但实际上这个想法已经出现了新的工作,我不是在它的基础上讨论更复杂的方法,而只是引用它的基本和新颖的见解。这个解决方案就是强化学习。强化学习的主要难点在于奖励的稀疏性和延迟性,那么为什么不引入辅助任务来增强训练信号呢?当然,因为伪奖励必须与真实目标相关联,并且在执行过程中不依赖于人为监督。论文给出了一个非常直接实用的建议:遍历所有辅助任务,增强目标函数(最大化奖励)。从整体性能的意义上讲,策略是在整体性能的前提下进行学习的。事实上,有一些模型既近似于主要策略,也近似于其他任务的其他策略;这些模型共享它们的参数。例如,模型的第一层可以共同学习扩展其视觉特征。“代理人需要平衡提高整体奖励和提高辅助任务绩效的绩效”。下面显示的是论文中探讨的辅助任务。第一个是像素控制,代理通过独立决策精确地更改输入图像的每个像素。理由是“感知流的变化通常与环境中的重要事件有关”。所以学会控制变化是有意义的。第二个是特征控制,其中训练代理以预测价值网络某些中间层中隐藏单元的激活。这个想法很有趣,“因为代理的决策或价值网络可以学习提取与环境中的任务相关的高级特征。”第三个是奖励预测,代理学习预测即时奖励。这三个辅助任务是通过不断重新体验代理过去的经验缓存来学习的。抛开其他细节不谈,这一整套方法就叫做UNREAL。在Atari游戏和Labyrint的测试中,它被证明可以更快地学习并做出更好的决策。该论文最重要的见解是关于像素控制的有效性,而不是简单地通过重建损失函数来进行预测。将这些行为视为视觉自我监督,但这是另一个抽象层次。”学习重构只会让初始学习速度非常快,但是***变得更糟。我们的假设是输入重构会降低***的性能,因为它过于关注重构视觉输入。不相关的部分,而不是而不是奖励视觉线索。”通过不对称自我模拟形成内在动机和无意识学习:论文《Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play》。***我想强调的一篇论文是强化学习中辅助任务的思想。不过,关键是经过训练以完成自我模拟的代理可以在精确范围内自动生成比显式扭曲目标函数更简单的任务。自我模拟的原始形式是通过将代理分成“两个独立的意识”,称为爱丽丝和鲍勃而建立的。作者假设自我模拟中的环境(几乎)是可逆的或可重置为初始状态。在这种情况下,Alice执行一项任务并要求Bob执行相同的任务,即根据Alice结束任务的位置到达世界上相同的可观察状态。例如,爱丽丝可以四处走动并拿起钥匙、开门、关灯并停在一个准确的位置;Bob必须跟随Alice做同样的事情,然后停在和Alice相同的位置。***,正如你所想象的,这个简单环境的基本任务是在灯亮的时候拿到房间里的旗帜。这些任务由爱丽丝设定,并迫使鲍勃学习与环境互动。Alice和Bob都有明确的奖励函数。Bob必须最小化完成任务的时间,当Bob花费更多时间完成任务时,Alice可以获得更多奖励。这些决定的相互作用使他们能够“自动构建探索过程”。同样,这是特征学习自模拟思想的另一种实现。他们在多个环境中测试了这个想法,还在星际争霸的无敌模式中进行了尝试。“目标任务是创建新的海军陆战队。为了实现目标,代理必须按特定顺序执行一系列操作:(i)让SCV开采;(ii)积累足够的水晶矿来建造营房,以及(iii)一旦营房建成,就开始制造机枪手。”有多种决策选项,AI可以训练更多的SCV,加快挖矿速度,或者建造补给站来扩大人口上限。训练200步后,人工智能每建造一个就会奖励1点。虽然它已经接近不可能完全符合真实的游戏状态,Bob的成功只取决于游戏的全局状态,其中包括每类单位(包括建筑物)的数量,以及矿产资源的积累。因此,Bob的目标是完成机枪手的数量和爱丽丝在自模拟中在最短时间内可以建立的累积矿物的数量。在该方案中,自模拟确实有助于加速强化学习,并且在收敛行为方面表现优于组合强化学习+更简单的决策预训练基线方法:这里需要注意的是,图中没有显示决策预训练的时间消耗。见论文《Teacher-Student Curriculum Learning》。***附带说明一下,并不是说无监督学习总是很困难,实际上测量其行为更加困难。正如YoshuaBengio所说:“我们不知道什么样的表示是好的。[...]我们甚至没有一个合适的目标函数的明确定义,以使无监督学习能够很好地工作。”事实上,几乎所有关于无监督学习的东西都是在间接地使用监督学习或强化学习来衡量特征是否有意义。在无监督学习还处于提高训练质量和加速训练以训练预测模型的阶段,这是合理的。然而,在视频和文本必须使用数据的不可见部分的一般表示之后,一切都不同了。这与迁移学习的鲁棒性特征完全相同。原文:http://giorgiopatrini.org/posts/2017/09/06/in-search-of-the-missing-signals/心(id:almosthuman2014)》】点此查看本作者更多好文