机器学习算法应该理解数据并从中提取有用的特征,才能解决复杂的任务。通常训练一个泛化模型需要大量的标注数据。这是非常费时费力的,一般很难做到。于是出现了各种基于masked的autoencoder技术,可以让模型在未标注的数据上进行训练,得到的特征可以适配到常见的下游任务BERT——最早的文本任务maskedmodel1810.04805MAE——image,可以说是它将BERT的才华扩展到视觉2111.06377M3MAE—图像+文本2205.14204听的MAE—音频2207.06405VideoMAE—视频2203.12602TSFormer—时间序列2107.10977GraphMAE—图2205.10803从上面我们可以看到,Autoencoded几乎涵盖了主要研究领域的大部分预训练基于transformer的模型以获得高级数据表示的强大而简单的技术,这对于在任何下游任务(迁移学习、微调)上采用该模型很有帮助。自监督学习是一种在没有任何标签的情况下获取数据信息表示的方法。标准的自监督学习技术通常使用高级数据增强策略。但是对于文本、音频、脑信号等,如何选择增强策略并保证策略的合理性是一个非常困难的问题,而MaskedAutoencoder并没有采用这种策略。我们只要有数据,就是大量的数据和必要的计算资源。它使用重建来预测来自部分模糊样本的完整数据。如果大约70%的数据被屏蔽并且模型可以恢复数据,则意味着模型已经学习到数据的良好高级表示。MAE是如何运作的?MAE的工作原理非常简单。看下图:超过一半的patches(比如75%)需要在训练前被block。编码器接收可见的补丁。在编码器之后,引入掩码标签,并使用一个小型(相对于编码器)解码器解码所有编码的补丁和掩码标签以重建原始图像。在下游任务中,编码器的输出作为特征,下游任务不需要屏蔽。大致过程如下:获取数据样本(图像)。Regionpartitionthesamples(patchesforimage,wordfortext,etc)applyahighratioofrandommasking(75%usedinthepaper)只保留可见部分并将它们送入编码器。使用上面的mask进行padding,将encoder的输出和mask合并,并保留原来的顺序,作为decoder的输入。解码器负责重建掩码。正是这样一个简单的过程,可以从数据中提取有意义的特征
