当前位置: 首页 > 科技观察

稀疏模型最新进展!马一+LeCun联手:“白盒”无监督学习

时间:2023-03-22 01:00:46 科技观察

近日,马一教授与图灵奖获得者YannLeCun联合在ICLR2023上发表论文,描述了一种极简且可解释的无监督学习方法,无需借助数据增强、超参数调整或其他工程设计,可以实现接近SOTASSL方法的性能。论文链接:https://arxiv.org/abs/2209.15261该方法利用稀疏流形变换,结合稀疏编码、流形学习和慢速特征分析。使用单层确定性稀疏流形变换,在MNIST上可以达到99.3%的KNNtop-1精度,在CIFAR-10上可以达到81.1%的KNNtop-1精度,在CIFAR-100上可以达到53.2%的KNNtop-1精度。通过简单的灰度增强,该模型在CIFAR-10和CIFAR-100上分别达到了83.2%和57%的准确率,这些结果显着缩小了简单“白盒”方法与SOTA方法之间的差距。此外,还提供了关于如何形成无监督表示变换的直观解释。该方法与潜在嵌入自监督方法密切相关,可以看作是最简单的VICReg方法。尽管我们的简单构造模型和SOTA方法之间仍然存在很小的性能差距,但有证据表明这是一个有前途的方向,可以实现有原则的白盒无监督学习。文章第一作者陈玉北是纽约大学数据科学中心(CDS)和元基础人工智能研究中心(FAIR)的博士后助理。他的导师是YannLeCun教授。情报研究所(BAIR),毕业于清华大学。主要研究方向是计算神经科学学习与深度无监督(自监督)学习的交叉。研究成果增强了对大脑和机器无监督表示学习的计算原理的理解,重塑了对自然信号统计的理解。马毅教授1995年获得清华大学自动化与应用数学双学士学位,1997年获得加州大学伯克利分校电子工程硕士,2000年获得电子工程数学硕士和博士学位。现任加州大学伯克利分校电气工程与计算机科学系教授,IEEEFellow、ACMFellow、SIAMFellow。YannLeCun最著名的工作是将卷积神经网络(CNN)用于光学字符识别和计算机视觉,也被称为卷积网络之父;2019年,他与Bengio、Hinton共同获得计算机科学最高奖项图灵奖。从最简单的无监督学习开始,无监督表示学习在过去几年取得了长足的进步,有望在数据驱动的机器学习中提供强大的可扩展性。什么是学习表征,以及它是如何以无监督方式形成的,目前还不清楚;此外,目前还不清楚是否有一套共同的原则来支持所有这些无监督的表示。许多研究人员已经意识到提高模型理解的重要性,并采取了一些开创性的措施来尝试简化SOTA方法,与经典方法建立联系,统一不同的方法,可视化表示,并从理论上分析这些方法,并希望发展出不同的理论计算:允许我们根据第一性原理从数据构建简单的、完全可解释的“白盒”模型,该理论也有助于理解无限监督学习的原理提供指导。在这项工作中,研究人员朝着这个目标又迈出了一小步,试图构建最简单的“白盒”无监督学习模型,不需要深度网络、投影头、数据增强或各种其他工程设计。在本文中,通过利用两个经典的无监督学习原则,即稀疏性和光谱嵌入,建立了一个双层模型,在几个标准数据集上取得了不显着的基准测试结果。实验结果表明,基于稀疏流形变换的二层模型与latent-embedding自监督方法具有相同的目标,在没有任何数据增强的情况下,在MNIST上实现了99.3%的KNN最高level1准确率,达到了81.1%KNN在CIFAR-10上的最高1级准确率,在CIFAR-100上的准确率为53.2%。通过简单的灰度增强,我们进一步在CIFAR-10上实现了83.2%的KNNtop-1精度和在CIFAR-100上的57%KNNtop-1精度。这些结果是缩小“白盒”模型和SOTA自监督(SSL)模型之间差距的重要一步。尽管差距仍然很大,但研究人员认为,进一步缩小差距有可能为学习无监督表征带来更多好处。深入理解,这也是该理论走向实际应用的一条有前途的研究路径。三个基本问题什么是无监督(self-supervised)re-presentation本质上,原始信号的任何非恒等式变换都可以称为一种表示(re-presentation),但学术界更感兴趣的是那些有用的变换。无监督重现学习的一个宏观目标是找到一个函数,将原始数据变换到一个新的空间中,从而使“相似”的事物更靠近地放置在一起;同时,新空间不应该是一个折叠的和琐碎的,即必须保留数据的几何或随机结构。如果这个目标达到了,那么“不相似”的内容自然会被放在表示空间的很远的地方。相似性从何而来?相似性主要来自三个经典思想:1)时间同现,2)空间同现;和3)原始信号空间中的局部邻居。当底层结构是几何结构时,这些想法在相当程度上重叠;但当结构是随机的时,它们在概念上也有所不同。随机共现结构之间的差异。利用局部性,相关工作提出了两种无监督学习方法:流形学习和共现统计建模,其中许多想法达到了系谱分解或密切相关的矩阵分解公式。流形学习的思想是只有原始信号空间中的局部邻域是可信的,通过综合考虑所有局部邻域,出现全局几何,即“thinkglobally,adaptlocally”(全局思考,适应局部)。相比之下,共现的统计建模遵循概率思想,这也是对流形思想的补充,因为某些结构无法用连续流形建模。最明显的例子之一来自自然语言,其中原始数据很少来自平滑的几何图形,例如在词嵌入中,“西雅图”和“达拉斯”的嵌入可能相似,即使它们不经常同时出现,其根本原因是它们具有相似的上下文模式。概率和流形的观点在理解“相似性”上是相辅相成的。当定义了相似性后,就可以构造一个变换,使相似的概念更接近。本文如何构建表示转换?基本原则:稀疏性和低秩(lowrank)一般来说,稀疏性可以用来处理数据空间中的局部性和分解来构建支持;然后使用低频函数构建表示变换并分配相似的值来支持上面的相似性。整个过程也可以称为稀疏流形变换。