当前位置: 首页 > 科技观察

《变形金刚》五年换掉疯狂的CNN!变形金刚会指挥人工智能?

时间:2023-03-13 16:25:25 科技观察

变形金刚,如今在AI界已经家喻户晓,怎么会在这么短的时间内爆火?变形金刚的起源想象一下,您正在逛附近的五金店,看到货架上有一种新型锤子。与其他锤子相比,它的敲击速度更快、更准确,这些锤子在过去几年中已经过时了,至少对于大多数用途而言是这样。通过一些调整——这里一个附件,那里一个扭矩——这个工具甚至可以变成锯子!其切割速度和精度不亚于任何同类产品。事实上,一些处于硬件开发前沿的专家表示,锤子可能只是将所有硬件工具融合到一个设备中的先驱。类似的故事正在AI行业上演。这种“多功能新锤”是一种称为Transformer的人工神经网络,它是一种节点网络,可以通过对现有数据进行训练来“学习”如何完成某些任务。最初,Transformer用于语言处理,但最近它影响到更多领域。2017年,Transformer首次出现在谷歌研究人员发表的一篇神秘标题“AttentionIsAllYouNeed”的论文中。之前其他人工智能的一般路径是,系统会先关注输入数据的局部块,然后构建整体。例如,在语言模型中,相邻的词首先被组合在一起。Transformer的运行路径会让输入数据中的每个单元都被连接或关注,研究人员称之为“自我关注”。这意味着一旦开始训练,Transformer就可以看到整个数据集的处理轨迹。论文链接:https://arxiv.org/abs/1706.03762很快,Transformer成为专注于分析和预测文本的文字识别等应用领域的领导者。它催生了一批新的人工智能工具,例如OpenAI的GPT-3,它可以训练数千亿个单词,并持续生成语义可读的新文本,这些文本非常聪明。Transformer的成功让AI社区想知道它还能做什么,而答案正在路上。在图像分类等视觉任务中,使用Transformer的神经网络更快、更准确。而那些需要一次性处理多个输入数据/规划任务的新兴任务,也表明Transformer可以完成更多的工作。就在10年前,人工智能学术界的不同子领域之间几乎没有共同语言。但Transformer的到来表明融合是可能的。“我认为Transformer之所以如此受欢迎,是因为它暗示了通用的潜力,”德克萨斯大学奥斯汀分校的计算机科学家AtlasWang说。Transformer”。从语言到视觉在“AttentionIsAllYouNeed”论文发表几个月后,最有希望扩大Transformer应用范围的举措之一就开始了。AlexeyDosovitskiy,柏林GoogleResearch的计算机科学家当时,他正在研究计算机视觉,这是一个AI子领域,专注于教授计算机如何处理和分类图像。和该领域的几乎其他人一样,他当时的首选工具是卷积神经网络(CNN),该技术多年来,它推动了深度学习,尤其是计算机视觉领域的所有重大飞跃。CNN的工作原理是对图像中的像素重复应用过滤器,以建立对特征的识别。由于卷积,照片应用程序可以组织其照片通过人脸库,或区分云和鳄梨。因此,CNN也成为视觉任务处理中不可或缺的工具。在该领域,扩大CNN以从越来越高分辨率的图像中训练越来越大的数据集,而不会减慢处理时间。这时,他注意到Transformer几乎完全取代了之前NLP任务中的所有工具。那么,在视觉处理中能否达到类似的效果呢?这个想法很有见地。毕竟,如果Transformer可以处理大型文字数据集,为什么它不能处理图像呢?最终结果是一个名为“VisualTransformer”或ViT的神经网络,研究人员在2021年5月的一次会议上展示了它。论文链接:https://arxiv.org/abs/2010.11929该模型的架构是几乎与2017年提出的第一个Transformer相同,只是做了一些小改动,使其能够分析图像而不是文本。ViT团队知道他们无法完全模仿Transformer处理语言数据的方法,因为每个像素的self-attention都必须在模型运行期间完成,这将非常耗时。相反,他们将较大的图像划分为正方形单元,称为标记。令牌大小是任意的,因为它可以根据原始图像的分辨率变大或变小(默认为每边16像素)。通过按单元处理像素并对每个单元应用自注意力,ViT可以快速处理大型训练数据集以产生越来越准确的分类。Transformer对图像的分类准确率超过90%,比Dosovitskiy预期的要好得多。在行业标杆图像识别竞赛ImageNetClassificationChallenge中,ViT迅速夺冠。ViT的成功表明,CNN可能不是计算机视觉的唯一基础,正如许多研究人员所认为的那样。与Dosovitskiy一起开发ViT的NeilHoulsby说:“我认为CNN很可能在不久的将来被视觉Transformer或其衍生产品所取代。”同时,其他结果也支持这一预测。在2022年初的测试中,更新版本的ViT仅次于将CNN与Transformer相结合的新方法。曾经的冠军CNN模型,现在勉强进入前10。Transformer是如何工作的?ImageNet的结果表明,Transformer确实可以和CNN抗衡。但是谷歌的计算机科学家MaithraRaghu想知道他们是否像CNN那样“看”图像。虽然神经网络是出了名的黑盒子,但还是有办法窥探它们内部的。例如。通过逐层检查网络的输入和输出来了解训练数据的流动方式。论文链接:https://arxiv.org/abs/2108.08810对于CNN,它会逐像素识别图像,从局部到全局识别每个角或线的特征。借助self-attention,Transformer甚至可以在神经网络的第一层连接分布在图像两端的信息。如果说CNN的方法就像是从一个像素点开始放大,那么Transformer会慢慢清除整个模糊的图像。这种差异在语言领域更容易理解。例如,一只猫头鹰找到了一只松鼠。它试图用爪子抓住它,但只抓住了它的尾巴末端。第二句结构混乱。这些“它”指的是什么?一个只关注“它”旁边的词的CNN会很费力,但是一个将每个词与其他词连接起来的Transformer可以看到猫头鹰做出了抓取动作,而松鼠则失去了它的一部分尾巴。融合正在发生现在,研究人员希望将Transformer应用于一项更困难的任务:生成新图像。就像GPT-3这样的语言工具可以根据他们的训练数据生成新的文本。因此,在2021年发表的一篇论文中,Wang结合了两个Transformer模型,试图对图像做同样的事情。这是一项艰巨得多的任务。论文链接:https://arxiv.org/abs/2102.07074当双Transformer网络在超过200,000名名人的面部图像上进行训练时,它以中等分辨率合成了新的面部图像。根据初始分数(一种评估神经网络生成图像的标准方法),Transformer生成的名人图像令人印象深刻,至少与CNN生成的图像一样具有说服力。Transformer在生成图像方面的成功甚至比ViT在图像分类方面的能力更令人印象深刻。同样,在多模态处理方面,Transformer也有一席之地。在以前的孤立方法中,每种类型的数据都有自己的专用模型。另一方面,多模态网络允许程序除了听声音之外还能读出人的嘴唇。即可以同时处理多种类型数据的模型,例如原始图像、视频和语言。“你可以拥有代表丰富语言和图像信息的数据,”Raghu说,“而且比以前更深。”新兴项目指出了Transformer在其他AI领域的一系列新用途,包括教机器人识别人体运动、训练机器识别语音中的情绪以及在ECG上检测到的患者压力水平。另一个带有Transformer组件的程序是AlphaFold,它在2021年因其快速预测蛋白质结构的能力而成为头条新闻——这项任务以前需要十年的深入分析。优点和缺点新兴技术往往价格不菲,Transformer也不例外,尽管Transformer可以帮助人工智能工具的融合和改进。Transformer在预训练阶段需要更高的算力支持,才能达到击败传统竞争对手的准确率。王说,人们对高分辨率图像的兴趣总是会越来越大。由此带来的模型训练成本的增加可能是Transformer广泛部署的缺陷。然而,Raghu认为,使用复杂的过滤器和其他工具可以轻松克服此类培训障碍。Wang还指出,虽然VisionTransformer引发了推动AI向前发展的新项目(包括他自己的项目),但许多新模型仍然包含卷积功能的最佳部分。这意味着未来的模型更有可能同时使用CNN和Transformer,而不是完全放弃CNN。这对于这种混合架构来说是个诱人的预兆。也许,我们不应该急于得出Transformer将是最终模型的结论。但可以肯定的是,Transformer越来越有可能成为从业者经常光顾的AI硬件商店中任何新超级工具的必备组件。

猜你喜欢