LeCun的新作，一张卡片可以训练！方差正则化，稀疏编码器不再崩溃

时间：2023-03-21 16:46:52 科技观察

最近LeCun发表了一个新作品，仍然是一个崩溃问题，并且仍然是自监督的。这次提出了一种新的正则化方法：方差正则化，可以有效的防止编码崩溃，还可以提高重建的质量，一个显卡都可以训练！一种特别受研究人员欢迎的神经网络学习类型是自监督学习(SSL)。只要给定足够的数据，自监督学习就可以在完全不需要人工标注的情况下学习文本和图像的表示，而且数据量越大，模型参数越多，效果越好。自监督学习的工作原理也很简单：比如应用场景是一张图片，我们可以将SSL模型的输入输出设置为同一张图片，中间加一个隐藏层，然后开始训练！最简单的自编码器之一AutoEncoder已经准备就绪。一般来说，隐藏层的神经元数量比输入图片要少，所以经过训练后，autoencoder的中间隐藏层可以作为图片的表示向量，因为训练过程的目标是恢复只有这个隐藏向量的图片。autoencoder最初是基于降维的思想提出的，但是当隐藏层节点多于输入节点时，autoencoder就会失去自动学习样本特征的能力。这时候就需要对隐藏层节点进行一定的约束。稀疏自编码器应运而生，约束的出发点来自：高维稀疏表达好。因此，只需对隐藏层节点施加稀疏性约束即可。常用的稀疏编码方法当然是L1正则化。最近LeCun提出了一种新的稀疏编码协议，可以在不对解码器进行正则化的情况下防止编码崩溃。新的编码协议直接对编码进行正则化，使得每个潜在代码分量在给定输入集的稀疏表示上的方差大于固定阈值。论文：https://arxiv.org/abs/2112.09214开源代码：https://github.com/kevtimova/deep-sparse此外，研究人员还探索了如何使用多层解码器有效训练稀疏编码系统，它可以模拟比线性字典更复杂的关系。在MNIST和自然图像块上的实验中，实验结果表明，通过新方法学习的解码器在线性和多层情况下都具有可解释的特征。与使用线性字典的自动编码器相比，使用方差正则化方法训练的具有多层解码器的稀疏自动编码器可以产生更高质量的重建，这也表明方差正则化方法在低数据量下获得稀疏表示。在去噪和分类等下游任务中很有用。论文中LeCun的作者单位也由FAIR更名为MetaAIResearch(MAIR)。方差正则化给定输入y和固定解码器D，研究人员使用FISTA算法（近似梯度法ISTA的快速版本）进行推理以找到稀疏编码z*，它可以使用D中的元素获得。重构输入y。解码器D的权重是通过最小化输入y和从z*计算的重建y之间的均方误差(MSE)来训练的。编码器的权重E是通过预测FISTA的输出z?得到的。为了防止潜在代码的L1正则化崩溃，研究人员添加了一个约束，以确保每个潜在代码的方差大于预设阈值。主要实现方法是在能量函数中加入一个正则化项，使得所有latentcode分量的方差都保持在预设阈值之上。更具体地说，研究人员在推理过程中修改了目标函数以最小化能量。其中，hinge项被L1惩罚项抵消，作为新的正则化项。新方程可以鼓励每个潜在代码分量的方差保持在的阈值之上，从而防止潜在代码的L1正则化崩溃，从而无需解码器权重做正则化。重构项之和后的梯度对应于潜在代码z。对于线性解码器，虽然铰链项不是光滑的凸函数，但梯度是一条线这一事实意味着铰链项在局部表现得像凸二次函数。在训练过程中，研究人员同时训练了编码器E和解码器D，以预测用于FISTA推理计算的稀疏编码。同时训练的第一个原因是避免在解码器训练完成后使用批量统计来计算编码。事实上，应该可以为不同的输入独立计算编码。第二个原因是减少推理时间。编码器和解码器训练完成后，编码器可以直接计算输入的稀疏表示，这样就不需要使用FISTA进行推理了，即编码器可以进行amoritized推理。编码器的正则化项可以提示FISTA找到编码器可以学习的代码。在实验设置中，编码器的预测通常被视为常数，作为FIST编码的初始值。如果编码器提供了一个好的初始值，则可以通过减少FISTA迭代次数来减少推理时间。实验设置实验中的编码器是LISTA（LearnedISTA）编码器，其设计目的是模仿ISTA推理的输出，类似于递归神经网络。编码器由两个全连接层、一个偏置项和一个ReLU激活函数组成。线性解码器的参数只是一个线性变换，它将编码映射到输入数据的重构维度，线性变换中没有偏置项。在非线性解码器的情况下，使用具有大小为m的隐藏层和大小为l（潜在代码的大小）的输入层的全连接网络，使用ReLU作为隐藏层的激活函数。在将输入代码映射到潜在表示的层中有一个偏置项，而在将潜在表示映射到输出的层中没有偏置项。在推理过程中，编码z被限制为非负数。MNIST实验中latentcode的维度是128，ImageNetpatch实验中是256。当batchsize为250时，对于VDL中每个潜在成分的方差的正则化项来说已经足够大了。.将FISTA的最大迭代次数K设置为200次就足以实现良好的重建模型。在自编码器训练中，研究人员将MNIST的epoch设置为200，图像块设置为100。在SDL和SDL-NL实验中，解码器的全连接层W、W1和W2中列的L2正则化固定为1，输出平均能量最低的自动编码器被保存。研究人员还为SDL-NL和VDL-NL模型中的偏置项b1以及LISTA编码器中的偏置项b添加了权重衰减，以防止它们的正则化项无限膨胀。模型的训练只需要一张NVIDIARTX8000GPU卡，所有实验的运行时间都在24小时以内。从实验结果可以看出，对于两个SDL和两个VDL的字典元素，解码器似乎能够学习到方向、笔画，甚至是数字图形的一部分。随着λ值的增大，生成的图像越来越像一个完整的数字，完成了从笔画到数字的演化。在重建质量方面，SDL和VDL模型的编码器曲线显示了稀疏性（通过非活动编码（值0）组件的平均百分比衡量）和重建质量（通过平均PSNR衡量）之间的权衡.测试集在5个随机种子上测得的重建质量与预期一致，稀疏度越高重建效果越差，但采用论文提出的方差正则化方法训练的模型会优于SDL模型。更高的稀疏性导致更好的重建，证实方差正则化确实有效。

上一篇：Mesos的Framework和Executor注册流程

下一篇：数据库备份与恢复的15条建议，值得关注

LeCun的新作，一张卡片可以训练！方差正则化，稀疏编码器不再崩溃相关文章