当前位置: 首页 > 科技观察

2019年深度学习自然语言处理十大发展趋势

时间:2023-03-11 20:43:56 科技观察

本文介绍了最近FloydHub博客上CathalHoran自然语言处理的十大发展趋势。【导读】自然语言处理在深度学习的浪潮下取得了长足的进步。CathalHoran在FloydHub博客上介绍了自然语言处理的10大发展趋势。是一篇很好的了解NLP发展的文章。2018年是基于深度学习的自然语言处理(NLP)研究快速发展的一年。在此之前,最引人注目的是2013年首次发布的Word2Vec。在此期间,深度学习模型在语言建模领域取得的创新和突破源源不断。然而,2018年可能是所有这些势头最终开花结果的一年,NLP的深度学习方法有了真正突破性的新发展。去年的最后几个月,对BERT模型的研究浪潮尤为活跃。2019年,OpenAIGTP-2模型出现了新的挑战者,发布“太危险”。对于所有这些活动,很难从实际业务角度理解这意味着什么。这对我意味着什么?这项研究可以应用于日常应用吗?或者,底层技术是否仍在快速发展,以至于不值得花时间开发一项可能被下一篇研究论文视为过时的技术?方法?如果您想在自己的业务中应用最新方法,了解NLP研究的趋势很重要。为了帮助解决这个问题,根据最新研究,我们在明年可能会看到以下10种NLP趋势。NLP架构的趋势我们可以看到的第一个趋势是基于深度学习神经网络架构,它是近年来NLP研究的核心。您不必为了将它们应用到您的业务用例而详细了解这些架构。但是,您需要知道是否仍然对哪种架构能够提供最佳结果存有重大疑问。如果没有就最佳架构达成共识,就很难知道采用何种方法(如果有的话)。您将不得不投入时间和资源来寻找在您的业务中使用这些架构的方法。所以你需要知道2019年这个领域的趋势。内容1.以前的词嵌入方法仍然很重要2.递归神经网络(RNN)不再是NLP标准架构3.Transformer将成为主导的NLP深度学习架构4.预训练模型将开发更多通用语言技能5.迁移学习将发挥更大的作用6.微调模型将变得更容易7.BERT将改变NLP格局8.聊天机器人将从NLP创新的这一阶段受益最大9.零样本学习将成为10.关于人工智能的危险可能开始影响NLP研究和应用1.以前的词嵌入方法仍然很重要Word2Vec和GLoVE出现在2013年左右。随着所有新的研究,你可能认为这些方法不再相关,但你错了.弗朗西斯·高尔顿爵士(SirFrancisGalton)在19世纪后期引入了线性回归方法,但它作为许多统计方法的核心部分在今天仍然具有相关性。同样,像Word2Vec这样的方法现在是PythonNLP库(例如spaCy)的标准部分,它们被描述为“实用NLP的基石”。如果您想快速对常见文本进行分类,词嵌入可以解决问题。Word2Vec等方法的局限性对于帮助我们了解NLP研究的未来趋势也很重要。他们为所有未来的研究设定了基准。那么,它们的不足之处在哪里呢?每个词只能嵌入一个词,即每个词只能存储一个向量。所以“bank”的意思就是“我把钱存进银行”和“河边有一张漂亮的长椅”;他们很难在大型数据集上进行训练;你不能调整它们。为了使它们适合您的领域,您需要从头开始训练它们;它们并不是真正的深度神经网络。它们在具有一个隐藏层的神经网络上进行训练。2.递归神经网络(RNN)不再是NLP标准架构RNN长期以来一直是基于NLP的神经网络的基础架构。这些架构是真正的深度学习神经网络,是根据早期创新(如Word2Vec)设定的基准开发的。去年讨论最多的方法之一是ELMo(来自语言模型的嵌入),它使用RNN提供最先进的嵌入表示,解决了以前方法的大部分缺点。如下图所示,与前馈网络不同,RNN允许隐藏层自己循环,这样就可以接受可变长度的序列输入。这就是为什么它们非常适合处理文本输入。RNN非常重要,因为它提供了一种处理数据的方法,而且时序和顺序非常重要。例如,对于与文本相关的数据,单词的顺序很重要。改变词序或单词可以改变句子的意思,或者只是让它变得胡言乱语。在前馈网络中,隐藏层只能访问当前输入。它没有任何其他已处理输入的“记忆”。相反,RNN能够“循环”其输入以查看之前发生的情况。作为一个实际的例子,让我们回到银行的例句,“我把钱存入了银行”。在前馈网络中,当我们到达单词“bank”时,我们已经没有之前单词的“记忆”。这使得我们很难知道句子的上下文并预测正确的下一个单词。相反,在RNN中,我们可以参考句子中的前一个词,然后生成下一个词是“bank”的概率。RNN和长短期记忆(LSTM)是RNN的一种改进类型,它们的详细信息超出了本文的范围。但如果您真的想深入研究这个主题,没有比ChristopherOlahs关于这个主题的优秀文章更好的起点了。ELMo在多层RNN上进行训练,并从上下文中学习词嵌入。这使它能够根据每个单词的使用上下文为每个单词存储多个向量。它带有一个在非常大的数据集上训练的预训练模型,可以动态创建基于上下文的词嵌入,而不是像以前的静态词嵌入方法那样简单地提供一个查找表。此图是一个两层ELMO架构的示例。您拥有的层数越多,您可以从输入中学习到的上下文就越多。低层识别基本语法和语法规则,而高层提取更高的上下文语义。ELMO的另一个使它更准确的方面是它采用了双向语言建模。因此,它不是简单地从头到尾读取输入,而是从头到尾读取输入。这使它能够捕获句子中单词的完整上下文。如果没有这个,你必须假设特定单词的所有上下文都出现在单词之前或之后,这取决于你阅读它的方向。它还允许进行微调,以便可以将其调整为特定于域的数据。这导致一些人声称这是NLP的ImageNet时刻,这意味着我们越来越接近拥有可用于下游NLP任务的通用训练模型的核心构建块。因此,RNN结构还是很前沿的,值得进一步研究。直到2018年,它仍然是NLP的主要架构。一些评论家认为,现在是我们完全放弃RNN的时候了,因此它们不太可能在2019年成为许多新研究的基础。相反,2019年深度学习NLP的主要架构趋势将是Transformer。3.Transformer将成为主导的NLP深度学习架构。尽管ELMo可以克服以前词嵌入架构的许多缺点,例如它只能记住一段文本的上下文,但它仍然必须顺序处理其输入,一次一个词。逐字逐句,或者在ELMo的情况下,逐字逐句。如前所述,这意味着需要将文本流输入输入层。然后按顺序处理每个隐藏层。因此,在处理文本以理解上下文时,架构必须存储文本的所有状态。这使得学习较长的文本序列(例如句子或段落)变得困难,并使训练速度变慢。最终,这限制了它可以训练的数据集的大小,这对它所训练的任何模型的能力都有已知的影响。在人工智能中,“生命始于十亿个例子”。语言建模也是如此。更大的训练集意味着您的模型输出将更准确。因此,就您能够生成的准确性而言,输入阶段的瓶颈可能会非常昂贵。Transformer架构于2017年底首次发布,通过创建一种允许并行输入的方法解决了这个问题。每个词都可以有单独的嵌入和处理,这大大缩短了训练时间并有助于在更大的数据集上进行训练。举个例子,我们只需要看看2019年NLP的早期轰动之一,OpenAI的GTP-s模型。GTP-2模型的发布受到了很多关注,因为创建者声称发布一个完全预训练的模型是危险的,因为它有可能大规模生成“虚假”内容。无论其发布方式的优点如何,模型本身都是在Transformer架构上进行训练的。正如领先的AI专家QuocLe所指出的那样,GTP-2版本展示了在大规模训练时普通Transformer架构的强大功能……随着Transformer-xl的发布,Transformer架构本身在2019年向前迈进了一步。这建立在原始Transformer的基础上,并允许一次处理更长的输入序列。这意味着输入序列不需要被分割成任意固定长度,而是可以遵循自然语言边界,如句子和段落。这有助于理解多个句子、段落和可能更长的文本(如文章)的深层上下文。这样,Transformer架构为新模型打开了一个全新的发展阶段。现在可以尝试训练更多数据或不同类型的数据。或者,他们可以在转换器上创建新的创新模型。这就是为什么我们将在2019年看到许多新的NLP方法。transformer架构的发布为NLP中的深度学习方法创建了一个新的基线。人们可以看到这种新架构所提供的潜力,并很快试图找到将其纳入新的、更先进的NLP问题解决方法的方法。我们可以预期这些趋势将持续到2019年。4.预训练模型将培养更多通用语言技能。首先,像Transformer这样的新架构使得在以前被认为太大且难以学习的数据集上训练模型变得更加容易。计算开销太高。大多数人无法获得这些数据集,即使新架构可以更轻松地重新训练他们自己的模型,但仍然不是对每个人都可行。因此,这意味着人们需要让他们的预训练模型现成可用,或者根据需要构建和微调。其次,打开了TensorFlowHub,这是一个可重用机器学习模型的在线存储库。这使得快速试用一些高级NLP模型变得容易,这也意味着您可以下载在非常大的数据集上预训练的模型。这与ELMo和UniversalSentenceEncoder(USE)的发布是一致的。正在使用的是一种新模型,它使用转换器架构的编码器部分来创建句子的密集向量表示。5.迁移学习将发挥更大的作用迁移学习允许你根据自己的数据微调模型随着更多预训练模型的可用性,实现你自己的NLP任务将变得更容易,因为你可以使用下载模型初始点。这意味着您可以在这些模型之上构建自己的服务,并使用少量特定领域的数据快速训练它们。如何在您自己的生产环境中实施这些下游方法的一个很好的例子是提供BERT即服务。6.微调模型将变得更容易相反,原始模型BERT和ELMos的输出是密集的向量表示或嵌入。嵌入从其训练的大型通用数据集中捕获通用语言信息。您还可以微调模型以生成对您自己的封闭域更敏感的嵌入。这种微调形式的输出将是另一个嵌入。因此,微调的目标不是输出情感或分类概率,而是包含特定领域信息的嵌入。7.BERT将改变NLP的应用前景BERT的预训练通用模型比其任何前辈都更强大。它已经能够通过使用双向方法将新技术融入到NLP模型的训练中。这更类似于人类从句子中学习意义的方式,因为我们不仅仅从一个方向理解上下文。当我们阅读以理解单词的上下文时,我们也会提前预测。8.聊天机器人将从这一阶段的NLP创新中受益最大对于GPT-2和BERT等方法,情况有所不同。我们现在看到,经过一般训练的模型可以产生接近人类水平的反应。某些封闭域聊天机器人更难,因为它们需要微调。2019年,将转向创建工具以更轻松地针对更少量的特定领域数据微调模型(例如BERT)。来年的主要问题将是生成响应或使用新的NLP模型将传入的客户问题与先前存储或策划的响应模板相匹配是否更容易。这种匹配将通过寻找问题和回答之间的相似性来驱动。调整得越好,模型在识别新客户查询的潜在正确答案时就越准确。9.零样本学习将变得更有效零样本学习是在非常大的数据集或非常不同的数据集上训练通用模型。然后,您可以将此模型应用于任何任务。在翻译示例中,您训练一个模型并将其用作其他语言的通用翻译器。2018年底发表的一篇论文就是这样做的,能够学习93种不同语言的句子表示。10、关于人工智能危险性的讨论可能开始影响NLP的研究和应用目前,深度学习NLP领域似乎是人工智能最令人兴奋的领域之一。发生了这么多事情,很难跟上最新的趋势和发展。太好了,看起来它会继续发展并且增长得更快。唯一需要注意的是,经济增长速度可能如此之快,以至于我们需要更多时间来考虑潜在影响。更多内容请看ACL董事长、微软亚洲研究院副院长周明博士在ACL2019的主题演讲《一起拥抱 ACL 和 NLP 的光明未来》,畅谈NLP领域的技术趋势和未来重要的发展方向。NLP技术发展概览近年来,NLP研究和技术发生了翻天覆地的变化。自2012年以来,最令人印象深刻的进展是基于深度神经网络的NLP——DNN-NLP。目前,DNN-NLP已经形成了一套完整的相关技术,包括词向量、句向量、encoder-decoder、attention机制、transformer以及各种预训练模型。DNN-NLP在机器翻译、机器阅读理解、聊天机器人、对话系统等多项NLP任务上取得了显着进展,NLP未来的基础任务,周明博士认为关键问题是需要构建训练以及各种模型的测试数据集。在设计良好的数据集上,每个人都可以提出新的方法,不同的模型可以相互竞争。如果我们在这些任务上有所进步,我们的认知智能就会进一步提高,包括语言理解、推理、问题回答、分析、解决问题、写作、对话等。再加上感知智能的进步,识别和识别的能力生成声音、图像和文本,以及多模态文本和图像的交叉能力,可以通过文本生成图像,可以根据图像生成描述性文本等,我们可以推动很多应用的实现,包括搜索引擎、智能客服、AI教育、AI金融等各个方面的应用。