与LSTM相比,Transformer点燃了机器学习圈:它是通用的GoogleResearchScientistDavidHa:Transformers是新的LSTM。当Google在2017年6月发布论文《Attention is All You Need》时,我们可能还没有意识到它提出的Transformer架构会带来多少惊喜。在诞生不到四年的时间里,Transformer不仅成为了自然语言处理领域的主流模型(基于Transformer的预训练语言模型成为主流),而且开始跨界到其他领域.最近几个月,大量ApplyTransformer在计算机视觉领域的研究。2020年10月,谷歌提出了VisionTransformer(ViT),可以直接使用transformer对图像进行分类,不需要卷积网络。ViT模型取得的结果可与当前最先进的卷积网络相媲美,但其训练所需的计算资源要少得多。2020年12月,来自复旦、牛津、腾讯等机构的研究人员提出了SEgmentationTRAnsformer(SETR),将语义分割作为一个sequence-to-sequence的预测任务。该模型在ADE20K上排名第一,性能优于OCNet和GCNet等网络。2021年1月伊始,OpenAI再出大招,利用DALL·E和CLIP打破自然语言和视觉的次元壁。两种模型都使用了Transformer,都取得了不错的效果。前者可以直接根据本文生成图片,后者可以完成图片和文字类别的匹配。结果,“变形金刚是万能的吗?”最近成为机器学习社区的热门话题。GoogleBrain研究员DavidHa发推文:Transformer是新的LSTM。他驳斥了他在2017年5月提出的一个说法:“LSTM就像神经网络中的AK47。无论我们多么努力地尝试用新的东西替换它,这都是浪费时间。从现在开始大约50年。”LSTM于1997年由SeppHochreiter和JürgenSchmidhuber共同提出,至今已有20年的历史。大卫哈怎么也想不到,这个预言竟然被一个月后出现的变形金刚打破了,而且只用了4年时间。著名机器学习资源网站PaperswithCode在1月20日发布的Newsletter中列出了应用Transformer的十大新任务:图像合成论文:TamingTransformersforHigh-ResolutionImageSynthesis链接:https://arxiv.org/pdf/2012.09841v1.pdf多目标跟踪论文:TransTrack:Multiple-ObjectTrackingwithTransformer链接:https://arxiv.org/pdf/2012.15460v1.pdf音乐生成论文:CompoundWordTransformer:LearningtoComposeFull-SongMusicoverDynamicDirectedHypergraphs链接:https://arxiv.org/pdf/2101.02402v1.pdf舞蹈生成论文:舞蹈革命:通过课程学习链接的长期舞蹈生成与音乐链接:https://arxiv.org/pdf/2006.06119v5.pdf3D物体检测论文:Self-AttentionBasedContext-Aware3DObjectDetection链接:https://arxiv.org/pdf/2101.02672v1.pdf点云处理论文:PCT:PointCloudTransformer链接:https://arxiv。org/pdf/2012.09688v1.pdf用于Interpreta的时间融合变压器bleMulti-horizo??nTimeSeriesForecasting链接:https://arxiv.org/pdf/1912.09363v3.pdf视觉语言建模论文:VinVL:在视觉语言模型中建立视觉表示的链接:https://arxiv.org/pdf/2101.00529v1.pdfLaneshapeprediction论文:End-to-endLaneShapePredictionwithTransformers链接:https://arxiv.org/pdf/2011.04233v2.pdfEnd-to-endtargetdetection论文:DeformableDETR:DeformableTransformersforEnd-to-EndObjectDetection链接:https://arxiv.org/pdf/2010.04159v2.pdf除DavidHa外,另一位研究员,NVIDIA研究科学家和前OpenAI研究科学家AnkurHanda这也意味着“Transformersareallyouneed”:...isAllYouNeed?Transformer引领了不止一种趋势。在其论文《Attention is All You Need》发表后,各种“**isAllYouNeed”的论文相继出现。甚至LSTM的创造者SeppHochreiter也写了一个《Hopfield Networks is All You Need》。有趣的是,这篇论文恰恰是对Transformer核心注意力机制新颖性的驳斥:Transformer中的注意力机制相当于Hopfield网络中的更新规则。Transformer的强大主要在于它里面的attention机制。Attention机制在NLP领域的应用最早可以追溯到2014年,当时Be??ngio团队将其引入到神经机器翻译任务中,但模型的核心架构仍然是RNN。相比之下,Transformer完全摒弃了传统的CNN和RNN,整个网络结构完全由attention机制组成。这种变化带来的效果提升也是颠覆性的。然而,在2020年7月发表的论文《Hopfield Networks is All You Need》中,SeppHochreiter等人。表明Transformer中的注意力机制实际上等同于扩展到连续状态的现代Hopfield网络中的更新规则。当塞普发表这篇论文时,Transformer的跨界之旅已经开始。2020年5月,FacebookAI推出了第一个成功集成Transformer作为检测管道核心构建块的目标检测框架——检测Transformer(DETR),用于目标检测和全景分割。6月,OpenAI将基于Transformer的模型GPT-2应用到图像领域,进行图像分类任务。在过去的六个月里,越来越多的工作开始探索如何将Transformer应用到计算机视觉等其他领域。最近有“Transformersareallyouneed”、“TransformersarethenewLSTMs”等说法。变形金刚是新的LSTM吗?1997年,SeppHochreiter和JürgenSchmidhuber联合发表了长短期记忆网络(LSTM)论文,被认为是机器学习史上的里程碑。LSTM是一种特殊的递归神经网络(RNN)。SeppHochreiter在1991年分析了随着时间的反向传播(BPTT)引起的梯度爆炸和梯度消失问题;1997年,SeppHochreiter和JürgenSchmidhuber在LSTM论文中引入了CEC单元来解决BPTT带来的梯度爆炸和消失问题。之后,许多研究人员对其进行了改进和推广。LSTM单元的基本结构(来源:https://en.wikipedia.org/wiki/Long_short-term_memory)2020年2月,LSTM的创始人JürgenSchmidhuber写了一篇总结LSTM十年发展史的文章,并介绍了它在机器翻译、语音识别、机器人、时间序列预测、聊天机器人等方面的应用。Transformer诞生之初就彻底抛弃了RNN,逐渐在LSTM占优的NLP领域站稳了脚跟。现在,许多研究已经将其应用于时间预测、音乐生成和图像分类等跨界任务。在PaperswithCode最近发布的Transformer应用的十大新任务中,LSTM过去一直很活跃。变形金刚是新的LSTM吗?从模型应用领域的多样性来看,这似乎正在形成。“变形金刚无法更换,还能再用50年”的预言现在公布,不知道要破多久。
