在本文中,基于先前对RNN模型的研究,我们提出了一种有序神经元,它强制执行隐藏状态神经元之间的更新频率顺序,并将潜在树结构合并到循环模型中。此外,本文提出的一个新的RNN单元在四个任务上表现良好:语言建模、无监督组件解析、目标语法评估和逻辑推理。简介尽管自然语言通常以顺序形式呈现,但语言的底层结构并不是严格可序列化的。语言学家一致认为,这种结构受一组规则或语法支配(Sandra&Taft,2014),并指定单词构成句子的逻辑。不管它的表现形式如何,这种结构通常是树状的。虽然语言学家已经发现了这种模式,但其底层结构的真正起源仍然未知。一些理论认为这可能与人类认知的内在机制有关(Chomsky&Lightfoot,2002)。由于人工神经网络受到生物神经系统的信息处理和交流模式的启发,上述可能性吸引了更多的人使用人工神经网络来研究语言的底层结构。从实践的角度来看,将树结构集成到语言模型中也很重要,原因如下:获得具有更高抽象级别的层次表示,这也是深度神经网络的一个关键特征(Bengioetal.,2009;LeCun等人,2015年;Schmidhuber,2015年);可以捕获复杂的语言现象,例如长期依赖问题(Taietal.,2015)和组合效应(Socheretal.,2013);可以为梯度反向传播提供捷径(Chungetal.,2016)。近年来,深度神经网络的发展备受关注(Shenetal.,2017;Jacobetal.,2018;Bowmanetal.,2016;Choietal.,2018;Yogatamaetal.,2016).获得树结构的一种简单方法是通过受监督的解析器。这些分析器生成的树结构用于指导单词语义到句子语义的组合(Socheretal.,2013;Bowmanetal.,2015),甚至可以帮助预测下一个单词(Wuetal.,2015)。,2017)。但是,有监督的分析器也有一些局限性:1)很少有语言有全面的注释数据用于有监督的分析器训练;2)在可用的语言数据中,语法规则经常被打破“就像推特上的表达方式”;3)语言在实践中总是在变化,因此语法规则可能会演变。另一方面,以无监督方式从可用数据中学习树结构仍然是一个悬而未决的问题。训练过程中的繁琐结构(如左分支树结构、右分支树结构(Williamsetal.,2018))或强化学习训练困境(Yogatamaetal.,2016)使得许多研究无果而终。此外,一些方法的实现和训练相对复杂,例如Shen等人提出的PRPN。(2017)。循环神经网络(RNN)已被证明在语言建模任务中非常有效(Merity等人,2017年;Melis等人,2017年)。RNN隐式地在数据上施加了一个链结构。这种链式结构似乎与语言底层的不可序列化结构不一致,给深度学习方法在自然语言数据上的应用带来了一些困难,比如捕获长期依赖关系(Bengioetal.,2009),获取良好的泛化能力(Bowmanetal.,2015)和处理否定(Socheretal.,2013)等。同时,有证据表明,具有足够容量的递归神经网络有潜力隐式编码此类树结构(Kuncoro等人,2018年)。但问题是,将树状结构的归纳先验强加于模型架构是否会导致更好的语言模型?本文介绍了一种用于递归神经网络的新型归纳偏置:有序神经元。这种归纳偏差增强了神经元之间的依赖性,反映了每个神经元中存储的信息的生命周期。换句话说,一些高级神经元存储长期信息,而低级神经元存储短期信息。为了避免高层和低层神经元之间的固定划分,本文进一步提出了一种新的激活函数cumax()来主动分配神经元来存储长期/短期信息。基于cumax()和长短期记忆(LSTM)架构,本文设计了一种新模型ON-LSTM,它使RNN模型能够在不破坏其顺序形式的情况下执行树合成。该模型在四个任务上表现良好:语言建模、无监督选区解析、目标语法评估(Marvin&Linzen,2018)和逻辑推理(Bowman等人,2015)。它在无监督组合解析任务上的结果表明,本文提出的归纳偏差与人类专家提出的语法原则是一致的。我们的实验还表明,ON-LSTM在长期依赖性和较长序列泛化方面优于标准LSTM模型,论文:ORDEREDNEURONS:INTEGRATINGTREESTRUCTURESINTORECURRENTNEURALNETWORKS论文链接:https://openreview。net/forum?id=B1l6qiR5F7Abstract:递归神经网络模型已广泛用于处理由潜在树结构控制的顺序数据。先前的研究表明,RNN模型(尤其是基于LSTM的模型)能够学习利用潜在的树结构。然而,它的性能始终落后于基于树的模型。我们提出了一种新的归纳偏差,OrderedNeuron,它强制执行隐藏状态神经元之间更新频率的顺序。这篇论文表明,有序神经元能够将潜在树结构显式集成到循环模型中。为此,我们提出了一个新的RNN单元:ON-LSTM,它在四个任务上表现良好:语言建模、无监督组件解析、目标语法评估和逻辑推理。Figure1图1:组件解析树与ON-LSTM的关系。给定一个token序列(x1,x2,x3),其组成语法分析树如图(a)所示。图(b)显示了树结构的框图,其中S和VP节点都跨越一个以上的时间步长。高级节点的表示应在多个时间步长中保持相对一致。图(c)显示了每组神经元在每个时间步的更新神经元的比例。在每个时间步,给定输入词,深灰色块表示完全更新,浅灰色块表示部分更新。三组神经元的更新频率不同。较高级别的组更新频率较低,而较低级别的组更新频率较高。ON-LSTM本文提出了一种新的RNN单元ON-LSTM,作为有序神经元的实现。新模型具有与标准LSTM模型相似的架构。ON-LSTM与标准LSTM模型的唯一区别是我们排除了细胞状态ct的更新功能,并用新的更新规则取而代之,这将在后续章节中详细说明。和以前一样,使用遗忘门ft和输入门it控制对单元状态ct的清除和写入操作。一般来说,由于标准LSTM的门不会在其单个单元中强加拓扑,因此单个单元的行为不会反映顺序。实验表1表1:PennTreebank语言建模任务中验证集和测试集的单一模型困惑度。标记为“绑定”的模型在嵌入和softmax权重上使用权重绑定。标有“*”的模型专注于改进RNN语言模型的softmax部分。表2表2:在完整的WSJ10和WSJ测试集上评估未标记的“parsingF1”的结果。本文的语言模型分为三层,每一层都提供了^dt序列。本文介绍了所有层的分析性能。RL-SPINN和ST-Gumbel的结果在完整的WSJ上进行了评估(Williams等人,2017年)。PRPN模型在WSJ测试集上进行了评估(Htut等人,2018年)。表3表3:ON-LSTM和LSTM在每个测试用例上的总体准确度。“长期依赖”是指目标词对之间存在不相关的短语或从句,而“短期依赖”是指没有像这只猴子那样分心的情况。【本文为栏目组织大数据文摘原创翻译,微信公众号“大数据文摘(id:BigDataDigest)”】点此查看作者更多好文
