当前位置: 首页 > 科技观察

Transformer将在AI领域一统天下?现在下结论还为时过早

时间:2023-03-13 07:31:39 科技观察

从自然语言处理任务出发,再到图像分类生成领域大放异彩,无敌的Transformer会成为下一个神话吗?想象一下,您走进一家当地的五金店,看到货架上有一种新型锤子。您听说过这把锤子:它比其他锤子敲击速度更快、更准确,并且在过去几年的大多数用途中已经淘汰了许多其他锤子。此外,通过一些调整,比如这里的附件和那里的螺丝,锤子也可以变成锯子,切割速度与任何替代品一样快。一些处于工具开发前沿的专家表示,这把锤子预示着所有工具将融合到一个设备中。类似的故事正在人工智能领域上演。多功能的新型锤子是一种人工神经网络——一种根据现有数据进行训练以“学习”如何完成某些任务的节点网络——称为Transformer。它最初是为语言任务开发的,但最近开始影响其他AI领域。变形金刚最初出现在2017年的一篇论文中:《Attention Is All You Need》。在其他人工智能方法中,系统首先关注输入数据的局部补丁,然后构建整体。例如,在语言模型中,相邻的词首先被组合在一起。相反,Transformer运行一个程序,以便输入数据中的每个元素连接或参与其他元素。研究人员称之为“自我关注”。这意味着Transformer一旦开始训练就可以看到整个数据集的痕迹。在变形金刚出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。“在过去10年发生的这场深度学习革命中,自然语言处理有点后来者,”马萨诸塞大学洛厄尔分校的计算机科学家AnnaRumshisky说。计算机视觉落后了,而Transformer改变了这一点。”Transformer迅速成为专注于分析和预测文本的单词识别等应用程序的领导者。它引发了一波工具浪潮,例如OpenAI的GPT-3,可以训练数千亿个单词并生成连贯的新文本。Transformer的成功促使人工智能领域的研究人员思考:这个模型还能做什么?答案正在慢慢展开——事实证明,Transformer的功能出奇地丰富。在某些视觉任务中,例如图像分类,带有Transformer的神经网络比没有Transformer的神经网络更快、更准确。对于人工智能其他领域的新兴研究,例如一次处理多个输入或完成规划任务,Transformer也能处理得更多更好。“对于机器学习中的许多问题,变形金刚似乎具有相当大的变革性,包括计算机视觉,”在慕尼黑宝马公司从事自动驾驶汽车计算机视觉工作的弗拉基米尔·哈尔塔科夫(VladimirHaltakov)说。就在十年前,人工智能的不同子领域在很大程度上是互不关联的,但Transformer的出现表明融合是可能的。“我认为Transformer之所以如此受欢迎,是因为它展示了泛化的潜力,”德克萨斯大学奥斯汀分校的计算机科学家AtlasWang说。变压器。”从“语言”到“愿景”《Attention Is All You Need》发布几个月后,最有希望的扩大Transformer应用范围的举措开始了。AlexeyDosovitskiy在GoogleBrain的柏林办公室工作,从事计算机视觉方面的工作,这是一个AI子领域,专注于教授计算机如何处理和分类图像。与该领域的几乎所有其他人一样,他一直在使用卷积神经网络(CNN)。多年来,正是CNN推动了深度学习,尤其是计算机视觉领域的所有重大飞跃。CNN通过对图像中的像素重复应用过滤器来执行特征识别。根据CNN,一款照片应用程序可以按面孔对您的照片进行分类,或者区分鳄梨和云。因此,CNN被认为对于视觉任务至关重要。当时,Dosovitskiy正在应对该领域最大的挑战之一,即在不增加处理时间的情况下扩大CNN:在表示更高分辨率图像的更大数据集上进行训练。但随后他发现Transformer已经取代了之前几乎所有与语言相关的AI任务的首选工具。“我们显然受到了正在发生的事情的启发,”他说,“我们想知道,我们可以在视觉上做类似的事情吗?”这个想法有些道理——毕竟,如果Transformer可以处理大型数据集的文字,为什么不能处理图片呢?最终结果:在2021年5月的一次会议上,出现了一个名为VisionTransformer(ViT)的网络。该模型的架构与2017年提出的第一个Transformer的架构几乎相同,只有微小的变化,使其能够分析图像,而不仅仅是文本。“语言往往是离散的,”Rumshisky说,“所以图像必须离散化。”ViT团队知道无法完全模仿这种语言方法,因为每个像素的自注意力在计算时间上的代价高得令人望而却步。因此,他们将较大的图像划分为正方形单元或标记。大小是任意的,因为token可以根据原图的分辨率变大或变小(默认是一边16像素),但是通过分组处理像素并对每个像素应用self-attention,ViT可以快速处理大型训练数据集,导致越来越准确的分类。Transformer能够以超过90%的准确率对图像进行分类,远好于Dosovitskiy的预期,并在ImageNet图像数据集上实现了新的SOTATop-1准确率。ViT的成功表明,卷积可能并不像研究人员认为的那样对计算机视觉至关重要。GoogleBrain苏黎世办事处的NeilHoulsby曾与Dosovitskiy就ViT进行过合作,他说:“我认为CNN很可能在中期内被视觉Transformer或其衍生产品所取代。”有多种方法可以向模型添加自注意力。其他几个结果验证了这些预测。研究人员定期在ImageNet数据库上测试他们的图像分类模型,并且在2022年初,更新版本的ViT将仅次于将CNN与Transformers相结合的新方法。之前的长期冠军,没有Transformer的CNN,目前仅勉强进入前10。Transformer的工作原理ImageNet结果表明,Transformer可以与领先的CNN竞争。但是谷歌大脑加利福尼亚州山景城办公室的计算机科学家MaithraRaghu想知道他们是否以与CNN相同的方式“看”图像。神经网络是一个难以破译的“黑匣子”,但有一些方法可以窥探它的内部——例如通过逐层检查网络的输入和输出以了解训练数据的流动方式。这基本上就是Raghu的团队所做的——他们拆解了ViT。她的团队确定了自我关注导致算法中不同感知的方式。归根结底,Transformer的强大之处在于它处理图像编码数据的方式。“在CNN中,你从非常局部的视角开始,然后慢慢获得全球视角,”Raghu说。CNN逐像素识别图像,通过从局部到全局识别角或线等特征。但在具有自注意力的Transformer中,即使是信息处理的第一层也会在相距甚远的图像位置(如语言)之间建立联系。如果说CNN的方法就像是从单个像素开始,然后使用变焦镜头来降低远处物体图像的放大率,那么Transformer就是慢慢地将整个模糊的图像聚焦。这种差异在Transformer最初关注的语言领域更容易理解。考虑一下这些句子:“猫头鹰找到了一只松鼠。它试图用爪子抓住它,但只抓住了尾巴的末端。”第二句的结构令人困惑:“它”指的是什么?一个只关注与“它”相邻的单词的CNN会遇到麻烦,但是一个将每个单词与其他单词连接起来的Transformer可以识别猫头鹰正在抓松鼠,松鼠失去了一部分尾巴。显然,Transformers处理图像的方式与卷积网络有着根本的不同,研究人员变得更加兴奋。Transformer在将数据从一维字符串(如句子)转换为二维数组(如图像)方面的多功能性表明,这样的模型可以处理许多其他类型的数据。例如,Wang认为Transformer可能是朝着实现神经网络架构融合迈出的一大步,从而产生计算机视觉的通用方法——或许也适用于其他AI任务。“当然,让它真正发生是有局限性的,但如果有一个通用的模型,你可以把各种数据放在一台机器上,那就太棒了。”现在对ViT的展望研究人员希望将Transformer应用于更困难的任务:创建新图像。GPT-3等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中,Wang结合了两个Transformer模型来尝试对图像做同样的事情,但这是一个更难的问题。当双Transformer网络在超过200,000张名人面孔上进行训练时,它以中等分辨率合成了新的面孔图像。根据初始分数(一种评估神经网络生成的图像的标准方法),生成的名人面孔令人印象深刻,至少与CNN创建的面孔一样令人信服。Wang表示,Transformer在生成图像方面的成功比ViT在图像分类方面的能力更令人惊讶。“生成模型需要综合,需要添加信息以使其合理的能力,”他说。与分类领域一样,Transformer方法正在取代生成领域中的卷积网络。Raghu和Wang还看到了Transformer在多模式处理中的新用途。“这过去很难做到,”Raghu说,因为每种类型的数据都有自己的专门模型,而且这些方法都是孤立的。但是Transformer提出了一种组合多个输入源的方法。“有很多有趣的应用程序可以将这些不同类型的数据和图像结合起来。”例如,多模态网络可能会为一个系统提供动力,该系统除了可以收听人的声音外,还可以读取人的声音。嘴唇。“你可以拥有丰富的语言和图像信息表征,”Raghu说,“而且比以前更深入。”这些面孔是由基于Transformer的网络在对超过20万张名人面孔的数据集进行训练后创建的。一系列新的研究提出了Transformer在人工智能其他领域的一系列新用途,包括教机器人识别人类运动、训练机器识别语音中的情绪,以及检测心电图中的压力水平。另一个带有Transformer组件的程序是AlphaFold,它因其快速预测蛋白质结构的能力而成为头条新闻,解决了50年前的蛋白质分子折叠问题。Transformer并不是你所需要的全部尽管Transformer可以帮助集成和改进AI工具,但与其他新兴技术一样,Transformer也有一个成本高昂的特性。一个Transformer模型需要在预训练阶段消耗大量的计算能力才能打败之前的竞争对手。这可能是个问题。“人们对高分辨率图像越来越感兴趣,”王说。训练成本可能是阻碍Transformer推广的一个劣势。然而,Raghu认为,在复杂的过滤器和其他工具的帮助下,可以克服培训障碍。Wang还指出,虽然视觉转换器已经在推动AI领域的进步,但许多新模型仍然融合了卷积的最佳部分。他说,这意味着未来的模型更有可能使用这两种模式,而不是完全放弃CNN。同时,它还展示了混合架构的诱人前景,这种架构以当前研究人员无法预测的方式利用变压器。“也许我们不应该得出变压器是完美模型的结论,”Wang说。但越来越明显的是,变形金刚至少将成为AI商店中所有新超级工具的一部分。