当前位置: 首页 > 科技观察

对比学习也会塌陷维度?LeCun和田远东的新作DirectCLR帮助解决

时间:2023-03-15 14:12:12 科技观察

自监督学习广泛应用于计算机视觉,无需人工标注即可学习输入数据的有效表征。目前基于联合嵌入方法的自监督视觉表示学习的研究进展表明,自监督学习获得的表示性能与监督表示相差不大。这些方法的目标通常是通过最大化同一图像的不同失真度的嵌入向量之间的相干性来学习对数据增强不变的表示。然而,自监督模型存在崩溃问题,即所有输入都映射到同一个常数向量,因此研究人员提出了各种方法来解决这个问题。这些方法依赖于不同的机制,尽管成功地阻止了所有表示向量收缩到一个点。然而,在非对比学习方法中可以观察到,虽然嵌入向量没有完全坍塌,但它们沿着特定维度坍塌(维度坍塌),这导致嵌入向量在空间上有效。直观上来说,这种崩溃问题应该不会出现在对比学习中,因为对比学习的方法在损失函数中明确使用了正反例,可以直观地利用所有维度来推断反例的排斥作用,从而防止这种情况的发生。次元崩塌。然而,与直觉相反,对比学习方法仍然存在维度崩溃问题。造成这种现象的原因一直没有定论。Facebook的LeCun和田远东博士最近发表了一篇文章,从理论上研究了这一现象背后的动机。田远东博士是Facebook人工智能研究院的研究员和研究经理。他在上海交通大学获得了计算机科学的本科和硕士学位。他获得了博士学位。2013年获卡内基梅隆大学机器人系博士学位。致力于深度强化学习、表征学习和优化。在论文中,研究人员发现有两种不同的机制可能导致崩溃:1.沿着特征方向,当数据增加引起的方差大于数据分布引起的方差时,权重就会崩溃.2.即使数据增强的协方差在所有维度上都小于数据方差,由于不同层级的权重矩阵的相互作用(隐式正则化),权重仍然会崩溃。这种崩溃仅在网络具有多层时发生。在网络中。受此理论启发,文章提出了一种新的对比学习方法DirectCLR,它直接优化编码器(即表示空间),而不依赖于可训练的投影(projector)。DirectCLR在ImageNet上有一个线性可训练投影。Instrument,其性能优于SimCLR。根据经验,添加投影仪可以显着提高学习表示和下游表示的性能,检查表示层的频谱也会揭示有无投影仪的差异。研究人员在使用和不使用投影仪的情况下训练了两个SimCLR模型。当模型在没有投影仪的情况下进行训练时,SimCLR在表示空间中经历了维度崩溃。对比学习中的投影仪对于防止表示空间中的维度崩溃至关重要。基于这个理论,研究人员提出梯度将驱动投影仪权重矩阵与编码器主干的最后一层对齐,因此投影仪权重矩阵只需要是Angular(对角线)就可以了。投影仪仅将梯度应用于表示的子空间,因此权重矩阵只需是低秩矩阵即可。作者提出通过直接将表示向量的子向量发送到对比学习中的损失函数来去除投影仪,这种操作也称为DirectCLR。与所有最先进的自监督学习方法相比,这种方法能够直接优化表示空间。然后,研究人员在ImageNet上为DirectCLR训练了100个标准Sim-CLR的epoch,主干编码网络是一个ResNet50。在ImageNet上使用可训练的线性投影仪,DirectCLR显示出比SimCLR更好的性能。DirectCLR还可以实现类似于SimCLR中可训练投影仪的功能,以防止表示空间中的维度崩溃。有人可能会认为DirectCLR中的对比损失不会将梯度应用于表示向量r[d0:]的其余部分,而实际上整个表示向量r都经过训练并且包含有用的信息。表示向量的其余部分是通过残差连接从最后一个残差块之前的层复制的。这部分表示不直接从损失函数中经历梯度,而是通过卷积块由梯度更新,残差连接通过最后一个卷积块的全秩梯度。研究人员还进行了三个消融实验:固定低阶投影仪:此时DirectCLR退化为具有固定线性对角矩阵投影仪的SimCLR。实验结果观察到,当使用固定的低秩矩阵作为投影仪时,它在ImageNet上的表现相似,从而实现了62.3%的线性探测精度。这个低秩矩阵的奇异值对于d0数设置为1,其余为0。这个矩阵对应的奇异向量都是随机生成的。因此,它们唯一的区别就是这个固定投影仪多了一个固定的正交矩阵。这表明表示空间(或等效的前一层)在训练期间已经演变为与该正交矩阵对齐。TrainableDiagonalProjector:研究人员使用可训练投影仪训练了一个SimCLR模型,但仅针对对角线的值。该模型在ImageNet上实现了60.2%的线性探测精度,与具有1层线性投影仪的SimCLR相当。这也可以通过投影仪与主干中上一层的对齐现象来解释。但研究人员怀疑初始化问题是该模型比具有1层线性可训练投影仪的SimCLR稍差的原因:随机矩阵的奇异值与均匀分布不同。子向量z上的线性探测:对于DirectCLR,研究人员仅对子向量z执行线性探测,并在ImageNet上实现了47.9%的准确率。这表明即使r没有直接从损失函数中看到梯度,它的其余部分仍然包含有用的信息。为了保证论文能够成功复现,论文的附录还提供了每个引理和定理的详细证明、代码和参数。