当前位置: 首页 > 科技观察

73岁的Hinton构想了下一代神经网络:无监督对比学习

时间:2023-03-12 04:11:47 科技观察

在最近举行的第43届国际信息检索年会(ACMSIGIR2020)上,GeoffreyHinton作了主题为《The Next Generation of Neural Networks》的报告。GeoffreyHinton是Google副总裁、工程院士、VectorInstitute首席科学顾问和多伦多大学名誉教授。2018年与YoshuaBengio、YannLeCun一起因在深度学习领域的巨大贡献获得图灵奖。自1980年代以来,GeoffreyHinton就提倡使用机器学习方法进行人工智能研究。他希望通过人脑的运作来探索机器学习系统。受人脑的启发,他和其他研究人员提出了“人工神经网络”,为机器学习研究奠定了基础。那么,30多年过去了,神经网络未来的发展方向在哪里?在这份报告中,Hinton回顾了神经网络的发展,并表示下一代神经网络将属于无监督对比学习。Hinton报告的主要内容如下:人工神经网络最重要的未解决问题是:如何像大脑一样高效地进行无监督学习。目前,无监督学习方法主要有两大类。第一类的典型代表是BERT和变分自动编码器(VAE),它们使用深度神经网络来重构输入。但是这样的方法不能很好地处理图像,因为网络的最深层需要对图像的细节进行编码。Becker和Hinton于1992年提出的另一类方法训练深度神经网络的两个副本,以便当它们的输入是同一图像的两个不同裁剪版本时,它们会产生具有高互信息向量的输出。这些方法旨在将表示从不相关的输入细节中解放出来。Becker和Hinton使用的最优互信息方法有些缺陷,所以Pacannaro和Hinton后来用一个判别目标取而代之,其中一个向量表示必须在几个向量表示中选择对应的一个。Contrastiverepresentationlearning最近开始流行硬件加速,并被证明是非常有效的,但它仍然存在一个重大缺陷:要学习一对具有N位互信息的表示向量,我们需要将正确的对应向量与2N个不正确的向量。在他的演讲中,Hinton介绍了一种新的有效方法来处理这个问题。此外,他还提出了一种在大脑皮层进行知觉学习的简单途径。接下来,我们来看一下Hinton演讲的具体内容。为什么我们需要无监督学习?在预测神经网络的未来发展之前,Hinton首先回顾了神经网络的发展历程。演讲一开始,Hinton首先介绍了三种学习任务:监督学习、强化学习和无监督学习,并强调了无监督学习的必要性。为什么我们需要无监督学习?Hinton从生物学的角度进行了解释。他指出,人脑有10^14个神经元突触,生命的长度只有10^9秒。因此,人类不能完全依赖监督学习来完成所有的神经元训练,因此需要非监督学习的辅助。受此启发,构建智能模型也需要无监督学习。无监督学习的发展历史无监督学习是如何发展起来的?Hinton向我们介绍了无监督学习中的常见目标函数。紧接着,Hinton详细介绍了自动编码器。Hinton表示,自编码器是一种利用监督学习实现无监督学习的方式,目标是让最终的重建与数据相匹配。编码器将数据向量转换为代码,解码器根据代码生成数据。在对自动编码器的定义、训练深度自动编码器的困难和现状进行了高级介绍之后,Hinton重点介绍了两种类型的自动编码器:变分自动编码器和BERT自编码器。使用深度神经网络重建输入:VAE和BERTBERT以及变分自动编码器(VAE)是一类使用深度神经网络重建输入的无监督学习。变分自编码器由Wellings和Kingma于2013年提出,使用多层编码器选择实码,然后使用多层解码器重建数据。VAE的基本结构如下图所示:BERT是谷歌在2018年提出的一种语言表示模型,基于所有层的左右上下文预训练深度双向表示。上下文信息对BERT非常重要,BERT使用掩码语言模型(maskedlanguagemodel,MLM)让表示融合左右两边的上下文,从而预训练一个深度双向Transformer。Hinton举了一个例子:“她用平底锅煎炸了他”。在这句话中,即使不知道scromed的意思,也可以从上下文中推断出来。视觉领域也是如此。然而,BERT等方法不适用于视觉领域,因为网络的最深层需要对图像的细节进行编码。在讨论完以VAE和BERT为代表的一类无监督学习方法之后,Hinton向我们介绍了另一类无监督学习方法。Becker和Hinton提出了最大化互信息的方法,那么自编码器和生成模型是否有替代方案?Hinton说,我们可以尝试提取空间或时间一致的特征,而不是解释感官输入的每个细节。与自动编码器不同,这种方法的好处是它可以忽略噪声。随后,Hinton详细介绍了他在1992年与SuzannaBecker提出的一种提取空间一致特征的方法。该方法的核心思想是最大化输入的两个非重叠补丁表示之间的显式互信息。Hinton举了一个简单的提取空间一致性变量的例子,如下图所示:Hinton经过训练指出,唯一空间一致性的特征是“不一致性”(TheOnlySpatiallyCoherentPropertyisDisparity),所以这也是必须的从中提取。他表明,这种最大化互信息的方法存在一个棘手的问题,并假设如果只学习线性映射,并对线性函数进行优化,变量就会变得分布。但是,这种假设不会造成太多问题。以往研究方法回顾在这一部分,Hinton先后介绍了LLE、LRE、SNE、t-SNE等方法。LocallyLinearEmbedding(LLE)Hinton介绍了SamT.Roweis和LawrenceK.Saul在2000年Science论文《Nonlinear Dimensionality Reduction by Locally Linear Embedding》中提到的局部线性嵌入方法,可以显示高维数据点,并使非常相似的数据点彼此靠近其他。但需要注意的是,LLE方式会造成数据点重叠融合(curdling)和维度坍塌(dimensioncollapse)问题。下图显示了MNIST数据集中数字的局部线性嵌入,其中每种颜色代表不同的数字:此外,这样的长字符串大多是一维的,并且看起来彼此正交。从线性关系嵌入(LRE)到随机邻域嵌入(SNE)在这一部分中,Hinton介绍了从线性关系嵌入(LRE)到随机邻域嵌入(SNE)方法的转变。他表示,只有当存在“相似”关系时,LRE才会转变为SNE。同时,Hinton指出LRE目标函数可用于降维(dimensionalityreduction)。下图是SNE的示意图,其中高维空间中的每个点都有一个条件概率选择其他点作为它的邻居,邻域分布是根据高维成对距离。FromStochasticNeighborEmbedding(SNE)tot-distributedStochasticNeighborEmbedding(t-SNE)t-distributedstochasticneighborembedding(t-SNE)是SNE的一种变体,原理是用一个student-distribution来表示概率分布的低维空间。Hinton下图展示了MNIST数据集中数字的t-SNE嵌入图,每种颜色代表不同的数字:在介绍了这些方法之后,Hinton提出了两个问题:1)方差约束在优化非线性或非parametric为什么它在映射时表现不好?2)为什么典型相关分析或线性判别分析的非线性版本不起作用?并回答。最后,Hinton提出使用对比损失(contrastiveloss)来提取空间或时间上一致的向量表示,并介绍了他在2004年与RuslanSalakhutdinov尝试使用对比损失的探索,以及Oord、Li和Vinyals在2018年使用对比损失复制了这一点想法并使用它来发现时间上一致的表示。Hinton表示,contrastiveloss的使用是无监督学习中非常流行的一种方法。SimCLR,无监督对比学习的最先进实现在演示结束时,Hinton强调了他的团队使用对比损失提取一致表示的SimCLR最新实现,这是一个用于视觉表示对比学习的简单框架,不仅优于以前的所有工作,也优于最先进的对比自监督学习算法。下图展示了SimCLR的工作原理:那么SimCLR在ImageNet上的Top-1准确率如何呢?下图是SimCLR和之前各种自监督方法在ImageNet上的Top-1精度对比(使用ImageNet预训练),以及ResNet-50的监督学习效果。Hinton表示,在对ImageNet上1%的图像标签进行微调后,SimCLR可以达到85.8%的Top-5准确率——超过了后者仅用AlexNet上1%的标签。