当前位置: 首页 > 科技观察

2022年最值得关注的十篇论文你都看完了吗?快来学习

时间:2023-03-14 16:16:43 科技观察

2022年1月,扩散模型首先映入眼帘。当时我就知道大事要发生了,没想到几个月后又来了:DALLE-2、Imagen、StableDiffusion,还有很多其他型号。对于大型语言模型来说,2022年也是非常重要的一年,最近上线的ChatGPT更是锦上添花,抢了风头。在回顾今年发表的十篇值得关注的论文之前,我们可以先看看12月的AI亮点和麦肯锡的AI全景报告和行业调查综述。昨天,今天,明天总之,有两篇论文引起了我的注意。第1部分:VisualTransformer(ViT)学习什么?论文链接:https://arxiv.org/pdf/2212.06727.pdfVision探索表明,ViT学习的归纳偏差或特征类似于卷积神经网络(CNN)所学的特征。例如,ViT的早期层捕获边缘和纹理,而后期层学习更复杂的表示以捕获更广泛的概念。VisualTransformer的视觉特征从早期层(左)到深层(右)的过程。关于生成建模,ViT倾向于生成比CNN更高质量的背景,这提出了ViT如何处理预测任务中的背景和前景的问题。当背景被移除时,ViT在预测对象类别方面似乎比CNN更好,而且当前景被移除时,它们的表现也更好。这表明ViT在依赖基于其存在的某些特征时可能更具选择性,或者总体上更强大。PartTwo:ADiffusionModelforGeneratingProteins论文链接:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1在图像生成领域,扩散模型带来了突破性的性能,那么生成呢蛋白质结构?研究人员开发了一种新的蛋白质合成扩散模型,称为RoseTTAFold扩散(RFDiffusion),其中蛋白质是从头开始创建的,而不是从自然界中已经存在的蛋白质中创建的。重要的是要区分从头蛋白质(在实验室中使用没有进化历史的氨基酸序列合成)与AlphaFold、AlphaFold2(使用现有氨基酸序列数据预测蛋白质3D结构)等系统。但值得注意的是,AlphaFold2被用来验证RDiffusion研究的结果。然后说说最近的行业趋势。当今工业实际使用的技术是什么?根据麦肯锡最近的AI全景报告——不是大型语言模型(Transformer)。特别是,由于样本量和代表性的限制,本报告中的调查结果可能无法准确反映所有公司的经验。资料来源:麦肯锡2022年全景报告。自然语言处理一直备受业界追捧,但其热度却时常被计算机视觉应用所超越。但是现在,我们第一次看到计算机视觉和自然语言处理几乎总是紧密联系在一起的。与此同时,自然语言文本理解(可能是文本分类)的流行程度几乎是自然语言“生成”的两倍。注意自然语言生成的新闻往往霸占头版:如GPT-3、Galactica、ChatGPT等(文本理解可能包括摘要,也是“生成”的,所以这里我假设主要是指分类——liketasks.然后反过来,类别(categories)也可以重叠。)值得注意的是,Transformer排名垫底。似乎很多公司还没有采用类似BERT的语言模型编码器来进行文本理解和分类。相反,他们可能仍在使用基于词袋的分类器或递归神经网络。同样,类似GPT的模型解码器似乎并没有广泛用于语言生成,因此文本生成可能仍然严重依赖循环神经网络和其他传统方法。我根据下图发现了一些有趣的额外见解:来源:McKinseyAILandscape2022报告。能够发挥“小数据”的优势非常重要。当数据不可用时,生成合成数据的能力非常有用。尽快将数据集成到AI模型中的能力是让您在竞争中脱颖而出的关键。那么,一个好的软件架构和基本的设备设置可能会起到举足轻重的作用。不幸的是,到目前为止,大多数高性能公司并不关心模型的可解释性。Top10PapersoftheYear以下是我在2022年阅读的前3篇论文。当然,今年发表的论文中还有许多其他主题更精彩、更永恒、更有影响力。到2022年,保持前三名的成绩显然具有挑战性,因此下面附上我的前十名名单中剩余七篇论文的扩展名单。1.ConvNeXt论文链接:https://arxiv.org/pdf/2201.03545.pdf《A ConvNet for the 2020s》这篇论文我想称之为年度最佳,因为作者能够设计出性能优于其他的纯卷积架构流行的视觉变形金刚,例如Swin变形金刚(当然,它的性能优于之前出现的所有卷积神经网络)。当ConvNets不仅应用于分类而且应用于对象检测和实例分割时,这种提到的ConvNeXt架构很可能成为新的默认架构——例如它可以用作MaskR-CNN(主干)的主干。正如作者在他们的论文中所说,他们的灵感来自于当前的视觉Transformer训练机制和SwinTransformer混合架构表明卷积层仍然相关的事实。这都是因为纯视觉Transformer架构缺乏有用的归纳偏差,例如平移同方差和参数共享(即卷积中的“滑动窗口”)。为了开发ConvNeXt,作者从ResNet-50基础架构开始,采用现代ViT训练机制的架构修改和训练机制。即使考虑到卷积神经网络的背景,这些也不是什么新鲜事。然而,新颖之处在于作者对这些技术的有效使用、分析和组合。他们使用了哪些技术?这可以是一个很长的列表,包括深度卷积、逆向瓶颈层设计、AdamW、LayerNorm技术等等,你可以在下图中找到具体的总结。此外,作者还使用了Mixup、Cutmix等数据增强技术。2.MaxViT尽管随着上述ConvNext的诞生,卷积神经网络再次流行起来,但ViT依然抢尽风头(无双关).MaxViT:AMulti-AxisVisionTransformer重点介绍了近年来视觉转换器的发展。虽然早期的视觉转换器具有二次复杂性,但有许多方法可以将视觉转换器应用于具有线性缩放复杂性的较大图像。MaxViT于2022年9月发布,目前是ImageNet基准测试上的SOTA模型。在MaxViT中,这是通过将注意力块分解为具有局部-全局交互的两部分来实现的:局部注意力(“块注意力”);globalattention(“gridattentionforce”)。值得一提的是,MaxViT是一个卷积Transformer混合模型,同样具有卷积层。它可以用于预测建模(包括分类、对象检测和实例分割)以及生成建模。顺便说一句,GoogleScholar搜索“VisionTransformer”仅在2022年就产生了5,000多个结果。这个结果虽然可能包括误报,但表明对视觉Transformers的广泛流行和兴趣。但别担心,VisionTransformers不会完全取代我们钟爱的卷积神经网络。相反,正如MaxViT所强调的,当前的趋势是将视觉转换器和卷积网络集成到混合架构中。3.稳定扩散在ChatGPT成为最先进的模型之前,稳定扩散长期以来一直在互联网和社交媒体上得到普及。这个概念其实起源于论文《High-Resolution Image Synthesis with Latent Diffusion Models》uploadedinDecember2021.由于这篇论文在2022年的CVPR会议上发表,并在2022年8月以StableDiffusion受到高度关注,我认为将其列入2022年TOP3论文列表是公平合理的。扩散模型是一种概率模型,旨在通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为T的固定马尔可夫链的逆过程。扩散模型的图示。与使用生成器和鉴别器之间的极小极大博弈训练的GAN不同,扩散模型是使用最大似然估计(MLE)训练的基于似然的模型。这有助于避免模式崩溃和其他训练不稳定性。扩散模型已经存在了一段时间,但众所周知,在训练和推理期间从中进行采样的成本仍然很高。上述2022年论文的作者提到,5天的运行时间仅采样了5万张图像。《High-Resolution Image Synthesis with Latent Diffusion Models》论文的新颖之处在于,可以使用预训练的自动编码器在潜在空间中应用扩散,而不是直接使用原始图像的全分辨率原始像素输入空间。上面提到的训练过程可以分为两个阶段:首先,自动编码器进行预处理,将输入图像编码到较低维的潜在空间中,以降低复杂度。其次,扩散模型是在预训练的自动编码器隐藏层表示上训练的。在潜在空间中操作降低了用于训练和推理的扩散模型的计算成本和复杂性,并且可以生成高质量的结果。这篇论文的另一个贡献是一般条件下的交叉注意力机制。因此,除了无条件图像生成之外,所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建和文本到图像合成——后者是DALLE-2和Stable扩散是有原因的。接下来介绍一下我的前十篇论文中最后七篇论文的概况:4.《「通才」智能体》(AGeneralistAgent)。在这篇论文中,研究人员描述了Gato,它能够执行600多种不同的任务,从玩游戏到控制机器人。论文链接:https://arxiv.org/abs/2205.06175V.《训练最优计算的大型语言模型》(TrainingCompute-OptimalLargeLanguageModels)。为了在训练期间实现最佳计算,研究人员发现有必要通过相同的因子来缩放模型大小和训练令牌的数量。例如,他们创建了一个名为Chinchilla的模型,其性能优于Gopher,使用Gopher四分之一的参数输出四倍的数据。论文链接:https://arxiv.org/abs/2203.155566.《PaLM:使用 Pathways 缩放语言模型》(PaLM:ScalingLanguageModelingwithPathways):本文提出的PaLM模型在各种BIG-bench任务中表现出惊人的自然表现语言理解和生成技能。在某种程度上,它甚至可以识别因果关系。论文链接:https://arxiv.org/abs/2204.02311七、《基于大规模弱监督方法的鲁棒语音识别》(RobustSpeechRecognitionviaLarge-ScaleWeakSupervision)。本文介绍了Whisper模型,该模型在多语言任务上训练了680,000小时,并展示了对各种基准数据集(基准)的稳健泛化。本文中介绍的Whisper模型给我留下了深刻的印象。我用它为我的两门课程DeepLearningFundamentals-LearningDeepLearningwithaModernOpenSourceStack和DeepLearningFundamentals-LearningDeepLearningwithaModernOpenSourceStack生成字幕。论文链接:https://arxiv.org/abs/2212.04356八、《再论表格深度学习的预训练目标》(RevisitingPretrainingObjectivesforTabularDeepLearning)。我喜欢阅读大量关于表格数据的深度学习论文。但我特别喜欢这篇论文,因为它强调并提醒我们在额外(通常未标记)数据上预训练模型的重要性。(这不能使用XGBoost等基于树的模型轻松完成。)论文链接:https://arxiv.org/abs/2207.03208九、《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型?》(为什么基于树的模型在表格数据上仍然优于深度学习?).本文的主要内容是基于树的模型(随机森林和XGBoost)优于应用于中型数据集(10k训练示例)表格数据的深度学习方法。但随着数据集大小的增加(这里:10k→50k),基于树的模型和深度学习之间的差距越来越小。遗憾的是,这篇论文并没有涵盖特别多的最先进的深度表格网络,但它有稳健性分析和有趣的讨论,绝对值得一读。论文链接:https://arxiv.org/abs/2207.08815十、《用语言模型预测原子级蛋白质结构的进化程度》(Evolutionary-scalepredictionofatomiclevelproteinstructurewithalanguagemodel)。该论文提出了迄今为止最大的用于预测蛋白质三维结构的语言模型,并且它在保持相同准确性的同时也比以前的方法更快。该模型创建了ESM宏基因组图谱,这是宏基因组蛋白质的第一个大规模结构表征,具有超过6.17亿个蛋白质结构。论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3