当前位置: 首页 > 科技观察

史上最全的变形金刚合集!LeCun推送:为60个模型创建一个目录,你错过了哪篇论文?

时间:2023-03-21 12:31:21 科技观察

如果说这几年支撑大型模型发展的东西,那一定是变形金刚了!基于Transformer,各个领域涌现出大量的模型,每个模型都有不同的架构,不同的细节,还有一个不好解释的名字。最近有作者对近几年发布的所有流行的Transformer模型进行了全面的分类和索引,尽可能提供一个全面但简单的目录(catalog)。本文包括对Transformer创新和开发背景的介绍。论文链接:https://arxiv.org/pdf/2302.07730.pdf图灵奖获得者YannLeCun对此表示认可。文章作者泽维尔(Xavi)Amatriain毕业于西班牙庞培法布拉大学,获得博士学位。2005年,现任领英工程副总裁,主要负责产品人工智能战略。什么是变形金刚?Transformer是一类具有一些独特架构特征的深度学习模型,最早出现在谷歌研究人员于2017年发表的著名论文“AttentionisAllyouNeed”中,该论文在短短5年内被引用次数达到惊人的38,000次。Transformer架构也属于编码器-解码器模型(encoder-decoder),但在该模型之前,attention只是其中一种机制,大部分都是基于LSTM(长短期记忆)和其他RNN(递归神经网络))变体。提出Transformer的这篇论文的一个关键见解正如标题所说,注意力机制可以作为推导输入和输出之间依赖关系的唯一机制。本文不打算深入探讨Transformer架构的所有细节。感兴趣的朋友可以搜索“画报变形金刚”博客。博文链接:https://jalammar.github.io/illustrated-transformer/下面只简单介绍一些最重要的组件。编码器-解码器架构一个通用的编码器/解码器架构由两个模型组成,编码器获取输入并将其编码为固定长度的向量;解码器获取此向量并将其解码为输出序列。编码器和解码器联合训练以最小化条件对数似然。一旦经过训练,编码器/解码器就可以在给定输入序列的情况下生成输出,或者它可以对一对输入/输出序列进行评分。在原始的Transformer架构下,编码器和解码器都有6个相同的层,而在这6个层的每一层中,编码器都有两个子层:一个多头注意力层和一个简单的前馈网络,每个子层都有一个残差连接和层归一化。编码器的输出大小为512,解码器在编码器的输出上添加了第三个子层,即另一个多头注意力层。此外,解码器中的另一个多头层被屏蔽掉,以防止将注意力转移到后续位置,从而导致信息泄漏。注意力机制从上面的描述可以看出,模型结构中唯一“花哨”的元素是多头注意力,这是模型的全部力量所在。注意函数是查询和一组键值对到输出之间的映射。输出计算为值的加权和,其中分配给每个值的权重由查询的兼容性函数和相应的键计算得出。Transformer使用多头注意力,一组注意力函数的并行计算,也称为缩放点积注意力。与循环网络和卷积网络相比,注意力层有几个优势,最重要的是它们具有较低的计算复杂性和较高的连通性,这对于学习序列中的长期依赖性特别有用。变形金刚能做什么?为什么会流行起来?最初的Transformer是为语言翻译而设计的,主要是从英语到德语,但论文第一版的实验结果表明该架构可以很好地泛化到其他语言任务。这一特殊趋势很快被研究界注意到。在接下来的几个月里,任何语言相关的ML任务的排行榜都被某个版本的Transformer架构完全占据。比如问答任务Squad,很快就被各种Transformer模型给宰了。Transofrmer之所以能够如此迅速地占据大部分NLP排行榜的关键原因之一是它们可以快速适应其他任务,即迁移??学习;预训练的Transformer模型可以非常容易和快速地适应他们没有接受过训练的任务,这比其他模型有巨大的优势。作为ML从业者,您不再需要在庞大的数据集上从头开始训练大型模型,您只需在手头的任务上重新使用预训练的模型,也许只需将其与小得多的数据集略微对齐即可。进行调整。用于使预训练模型适应不同任务的特定技术称为微调。事实证明,变形金刚对其他任务的适应性很强,尽管它们最初是为与语言相关的任务开发的,但它们很快就对其他任务有用,从视觉或音频和音乐应用一直到下棋或做数学。当然,如果不是有无数工具可供任何会编写几行代码的人使用,那么所有这些应用程序都不可能实现。不仅Transformer很快融入了主要的AI框架(即Pytorch和TensorFlow),而且还出现了完全为Transformer而生的公司。Huggingface是一家迄今为止已筹集超过6000万美元的初创公司,几乎完全围绕将其开源Transformer库商业化的想法而建立。GPT-3是OpenAI于2020年5月推出的Transformer模型,是他们早期GPT和GPT-2的后续版本。该公司在预印本中展示了该模型,引起了不小的轰动,报纸声称它的功能如此强大,以至于他们没有资格向全世界发布它。而且OpenAI不仅没有发布GPT-3,还通过与微软的非常大的合作实现了商业化。如今,GPT-3为300多种不同的应用程序提供支持,并且是OpenAI业务战略的基础。对于一家已获得超过10亿美元资金的公司来说,这是一笔不小的数目。RLHFReinforcementLearningfromHumanFeedback(orPreferences),也称为RLHF(或RLHP),最近已成为AI工具箱的一个巨大补充。这个概念最早来自2017年的论文《DeepReinforcementLearningfromHumanPreferences》,但最近被应用到ChatGPT和类似的对话代理上,取得了相当不错的效果,引起了大众的关注。这篇论文的想法很简单,一旦语言模型被预训练,它就可以对对话产生不同的反应,让人类对结果进行排序,这些排序(又名偏好或反馈)可以用来进行强化训练学习机制奖。扩散模型Diffusion扩散模型已经成为图像生成的新SOTA,大有取代GANs(生成对抗网络)的趋势。扩散模型是一类为变分推理训练的潜在变量模型,这在实践中意味着训练一个深度神经网络来对被某些噪声函数模糊的图像进行去噪。以这种方式训练的网络实际上是在学习这些图像所代表的潜在空间。看完介绍,开启Transformer回溯之旅!