isbasedonfactorization,基于递归神经网络(RNN)的语言模型在多个benchmarks上达到当前state-of-the-art水平.尽管RNN作为通用逼近器具有出色的表达能力,但点积和Softmax的组合是否具有对条件概率(随上下文变化很大)进行建模的问题尚未得到明确回答。在这项工作中,我们从矩阵分解的角度研究了上述基于Softmax的循环语言模型的表达能力。我们表明,使用标准公式学习基于Softmax的循环语言模型等同于解决矩阵分解问题。更重要的是,由于自然语言是高度上下文相关的,分解后的矩阵可能是高秩的。这进一步表明,具有分布式(输出)词嵌入的标准的基于Softmax的语言模型不足以对自然语言进行建模。我们称之为Softmax瓶颈。我们提出了一种简单有效的方法来解决Softmax瓶颈。具体来说,我们将离散的潜在变量引入循环语言模型,并将下一个标记概率分布形式化为Softmax混合(MoS)。Softmax的混合比之前研究考虑的Softmax和其他替代方案具有更好的表达能力。此外,我们表明MoS可以学习具有更大归一化奇异值的矩阵,因此比Softmax和其他基于真实世界数据集的基准具有更高的等级。我们有两个主要贡献。首先,我们通过将语言建模形式化为矩阵分解问题来确定Softmax瓶颈的存在。其次,我们提出了一种简单而有效的方法,可以显着改进现有技术的结果。论文地址:https://arxiv.org/pdf/1711.03953.pdf摘要:我们将语言建模形式化为矩阵分解问题,并表明基于Softmax的模型(包括大多数神经语言模型)的表达能力受到Softmax瓶颈的限制.鉴于自然语言高度依赖于上下文,这进一步表明使用分布式词嵌入的Softmax实际上不足以对自然语言进行建模。我们提出了一个简单有效的方法来解决这个问题,并在PennTreebank和WikiText-2上将最先进的困惑度水平分别提高到47.69和40.68。PTB和WT2上的语言建模结果分别在表1和表2中给出。在参数数量相似的情况下,MoS在有和没有动态评估的情况下都优于所有基准,并实现了对当前最先进技术的显着改进(困惑度提高高达3.6)。表1:PennTreebank的验证集和测试集上的单个模型困惑。基准结果来自Merity等人。(2017)和Krause等人。(2017)。?表示使用了动态评估。表2:WikiText-2上各个模型的困惑度。基准结果来自Merity等人。(2017)和Krause等人。(2017)。?表示使用了动态评估。为了进一步验证上面给出的改进确实是源于MoS结构,而不是因为增加了额外的隐藏层或找到了一组特定的超参数,我们对PTB和WT2进行了消融研究(指去除模型以及算法的某些功能或结构,以了解它们如何影响模型和算法的结果)。表3:Switchboard的评估分数。表4:没有微调或动态评估的PennTreebank和WikiText-2的消融研究。我们绘制归一化奇异值的累积百分比,即归一化奇异值低于某个阈值的百分比。图1:给定[0,1]中的值的归一化奇异值的累积百分比。
