当前位置: 首页 > 科技观察

谷歌最新开源的NLP模型,可以处理整个《罪与罚》

时间:2023-03-20 10:10:20 科技观察

Transformer,是近年来NLP领域备受关注的模型之一。2017年,谷歌发表了一篇题为《AttentionIsAllYouNeed》的论文,提出了一个完全基于注意力机制的网络框架Transformer。2018年,谷歌开源了基于Transformer的BERT模型,在NLP领域开始流行起来。2019年机器学习的最大趋势之一是基于Transformer的自然语言模型的持续增长和扩散。根据自然语言处理领域数据集GLUE的排行榜,2020年一些表现最好的模型——包括英伟达的Megatron、谷歌的XLNet、微软的MT-DNN和Facebook的Roberta——都是基于Transformers的。近日,谷歌推出了Transformer的“升级版”——Reformer。[图片来源:VentureBeat所有者:VentureBeat]比Transformer更高效对于AI和机器学习模型,无论是语言、音乐、语音还是视频,序列数据都可能难以理解——尤其是在广泛的上下文中。例如,如果一个人或一个物体在它重新出现之前很久就从视频中消失了,许多算法会忘记它的样子。因此,谷歌开发了机器翻译模型Transformer,希望能解决这个问题。Transformer是一种可扩展到数千个单词的架构,可显着提高音乐创作、图像合成、逐句文本翻译和文档摘要等任务的性能。与所有深度神经网络一样,Transformer由连接层中的神经元(数学函数)组成,这些神经元从输入数据传输信号并缓慢调整每个连接的突触强度(权重),这是所有AI模型提取的内容。而学习预测的方式,但是Transformer可以唯一注意到每一个输出元素都与每一个输入元素相关联,它们之间的权重实际上是动态计算的。不过,Transformer并不完美——将其扩展到更大的环境会使局限性变得显而易见。大型Windows应用程序的内存从GB到TB不等,这意味着该模型只能摄取几段文本或生成一小段音乐。基于此,谷歌推出了Reformer作为Transformer的进化版。Reformer可以处理多达100万个单词的环境,并且可以在只有16GB内存的单个AI加速器芯片上运行。[图片来源:论文]雷锋网(公众号:雷锋网)获悉,相关论文《Reformer:TheEfficientTransformer》已被ICLR-2020(InternationalConferenceonLearningRepresentations)录用,目前模型已也已经开源。根据论文,Reformer主要包括以下技术:第一,可逆层在整个模型中只存储了激活函数的单个副本,因此N因子消失了;二、激活函数在前馈层内部拆分,分段处理,消除dff因子,节省前馈层内存;三、使用局部敏感哈希(雷锋网注:LSH,一种哈希算法,主要用于高维海量数据的快速近似搜索)。具体来说,哈希函数是将任意大小的数据映射到匹配相似向量(即表示机器学习中人类可读数据的代数结构)的固定大小值的函数,而不是在所有可能的向量中成对搜索的。例如,在翻译任务中,来自网络第一层的每个向量代表一个词,不同语言中同一个词对应的向量可以获得相同的哈希值。在分配哈希时,将序列重新排列,然后根据元素的哈希值进行排序,实现并行处理,降低了长序列的复杂度,大大降低了计算量。Reformer可以处理整部小说为了验证Reformer确实可以在单个GPU上运行并在长序列上快速训练,研究人员在enwik8和imagenet64数据集上训练了一个20层的Reformer模型。实验表明,Reformer可以达到与Transformer相同的性能,并且内存效率更高,在长序列任务上的训练速度更快。[Imagesource:paper]此外,研究团队还实验了基于Reformer的图像和文本模型,利用它们来生成图像中缺失的细节,还处理了小说的全文《罪与罚》(包含约211,591个单词).研究表明,Reformer能够逐像素生成全帧图像,并且能够在单轮训练中接收小说长度的文本。谷歌科学家?ukaszKaiser和加州大学伯克利分校的学生NikitaKitaev都对这项研究做出了贡献,他们在一篇博文中写道:因为Reformer非常高效,它可以直接应用于比几乎所有当前状态大得多的上下文窗口-art对于文本域中的数据,Reformer处理此类大型数据集的能力也可能会刺激社区创建数据集。据悉,论文作者将进一步将其应用到更广泛的领域(如时间序列预测和音乐、图像、视频生成),并改进位置编码的处理。?ukaszKaiser和NikitaKitaev补充说:我们相信Reformer为使用Transformer模型的长文本和自然语言处理以外的未来应用奠定了基础。2019年底,外媒VentureBeat采访了谷歌高级副总裁JeffDean。他在采访中表示:谷歌仍然希望建立更多的情境模型。就像现在,BERT等模型可以处理数百个单词,但无法处理10k个单词。所以这将是谷歌未来的主要关注点。Reformer似乎是朝这个方向迈出的充满希望的第一步。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。