当前位置: 首页 > 科技观察

微软分享了一个基于Transformer架构的超大型语言生成模型

时间:2023-03-18 21:48:06 科技观察

本文转载自雷锋网。如需转载,请到雷锋网官网申请授权。MicrosoftAI&Research今天分享了最大的基于Transformer架构的语言生成模型TuringNLG(以下简称T-NLG),并开源了一个名为DeepSpeed的深度学习库来简化大型模型的分布式训练。  基于Transformer架构,这意味着该模型可以为开放文本任务生成单词。除了完成未完成的句子外,它还可以生成问题的直接答案和输入文档的摘要。  去年八月,Nvidia宣布已经训练出世界上最大的基于Transformer的语言模型。当时,该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。  微软这次分享的模型,T-NLG有170亿个参数,是Nvidia的Megatron(现在第二大Transformer模型)的两倍,参数是OpenAI的GPT-2的十倍。据微软称,T-NLG在各种语言建模基准测试中优于最先进的技术,并且在应用于许多现实世界的任务(包括摘要和问答)时表现良好。  然而,与谷歌的Meena一样,最初使用GPT-2,T-NLG最初仅在私人演示中共享。  微软AI研究应用科学家CorbyRosset在一篇博文中写道:“除了通过聚合文档和电子邮件来节省用户时间,T-NLG还可以帮助作者撰写和回答读者可能对文档提出的问题。”提出问题以增强使用MicrosoftOffice套件的体验。”  具有Transformer架构的语言生成模型可以预测下一个单词。它们可用于编写故事、生成完整句子的答案以及总结文本。  微软表示,他们的目标是在任何情况下都能像人类一样直接、准确、流畅地做出回应:以前,问答和摘要系统依赖于从文档中提取现有内容,这些内容可以用作备选答案或摘要,但它们通常看起来不自然或不连贯。使用像T-NLG这样的自然语言生成模型,可以自然地总结或回答有关个人文档或电子邮件主题的问题。  AI领域专家告诉VentureBeat,2019年是NLP模型开创性的一年——使用Transformer架构无疑是2019年最大的机器学习趋势之一,引领语言生成和GLUE基准Facebook的领先RoBERTa、Google的XLNet、微软的MT-DNN都加入了各种benchmark的头把交椅的争夺。  同样在今天,微软还开源了一个名为DeepSpeed的深度学习库。该学习库已针对开发人员进行了优化,可提供低延迟、高吞吐量的推理。  DeepSpeed包含零冗余优化器(ZeRO),用于大规模训练具有1亿或更多参数的模型,微软过去使用它来训练T-NLG。  微软表示,DeepSpeed和ZeRO允许他们降低模型并行度(从16到4),将每个节点的批量大小增加四倍,并将训练时间减少三分之二;DeepSpeed使用更多更少的GPU可以让训练大型模型更有效率。  开发人员和机器学习从业者都可以使用DeepSpeed和ZeRO,因为训练大型网络(例如那些使用Transformer架构的网络)可能很昂贵,而且在规模上可能会出现问题。  另外,Google的DeepMind今天发布了新的远程记忆模型CompressiveTransformer,以及新的书本级语言建模基准PG19。