当前位置: 首页 > 科技观察

自监督学习简介及三个领域的现状

时间:2023-03-22 14:42:09 科技观察

近年来,通过监督学习进行深度学习也取得了巨大的成功。从图像分类到语言翻译,他们的表现一直在提高。然而,在某些领域(例如罕见疾病的医学数据集),收集大型标记数据集既昂贵又不可能。这些类型的数据集为自我监督算法提供了充足的机会,以进一步提高预测模型的性能。自监督学习旨在从未标记的数据中学习信息表示。在这种情况下,标记数据集相对小于未标记数据集。自我监督学习使用这些未标记的数据并执行借口任务和对比学习。在一篇关于自监督学习的优秀文章中,JeremeyHoward将监督学习定义为两个阶段:“我们用于预训练的任务称为预任务。我们随后用于微调的任务称为下游任务”.自我监督学习的示例包括未来词预测、掩码词预测修复、着色和超分辨率。计算机视觉的自我监督学习自我监督学习方法依赖于数据的空间和语义结构。对于图像来说,空间结构学习极其重要。包括旋转、拼接和着色在内的不同技术被用作从图像学习表示的前置任务。对于着色,将灰度照片作为输入并生成照片的彩色版本。张等人的论文。[1]解释了产生生动逼真的阴影的着色过程。另一种广泛用于计算机视觉自监督学习的方法是放置图像块。一个例子包括Doersch等人的论文。[2].在这项工作中,提供了一个大型未标记图像数据集,并从中提取了随机图像块对。在初始步骤之后,卷积神经网络预测第二个图像块相对于第一个图像块的位置。图2说明了该过程。自监督学习还有其他不同的方法,包括修复和判断错误分类的图像。如果您对此主题感兴趣,请查看参考文献[3]。它提供了关于上述主题的文献综述。用于自然语言处理的自监督学习在自然语言处理任务中,自监督学习方法是最常见的。Word2Vec论文中的“连续词袋”方法是自监督学习最著名的例子。同样,自监督学习还有其他不同的方法,包括相邻词预测、相邻句子预测、自回归语言建模和掩码语言建模。BERT、RoBERTa和ALBERT论文中使用了屏蔽语言建模公式。最近从文本中进行自我监督学习的例子包括Zhang等人的论文。[4].作者提出了一种区间句子生成机制。该机制用于摘要的下游任务。Self-supervisedlearningontabulardata图像和文本的自监督学习一直在进步。但是现有的自监督方法对表格数据无效。表格数据没有空间关系或语义结构,因此依赖空间和语义结构的现有技术是无用的。大多数表格数据涉及没有有意义的凸组合的分类特征。即使对于连续变量,也不能保证数据流形是凸的。但这一挑战为研究人员提供了一个新的研究方向。我将简要介绍在该领域所做的一些工作。文森特等人所做的工作。[5]提出了一种去噪自动编码器的机制。前置任务是从损坏的样本中恢复原始样本。在另一篇论文中,Pathak等人。[6]提出了一种上下文编码器,用于从损坏的样本和掩码向量中重建原始样本。Tabnet[7]和TaBERT[8]的工作也是自我监督学习的增量工作。在这两项研究中,前置任务是恢复损坏的表格数据。TabNet侧重于注意力机制并在每一步选择特征进行推理,而TABERT学习自然语言句子和半结构化表格的表示。最近的一项工作(VIME)[9]提出了一项新的预任务,该任务使用一种新颖的损坏样本生成技术来恢复掩码向量和原始样本。作者还提出了一种新的表格数据增强机制,可以与对比学习相结合,以扩展表格数据的监督学习。这里的输入样本是从未标记的数据集生成的。总结自我监督学习是深度学习的新常态。图像和文本数据的自我监督学习技术是惊人的,因为它们分别依赖于空间和序列相关性。然而,表格数据中没有一般的相关结构。这使得表格数据上的自监督学习更具挑战性。