BeyondtheSoftmaxbottleneck-Ahigh-rankRNNlanguagemodel

时间：2023-03-12 18:30:36 科技观察

isbasedonfactorization，基于递归神经网络（RNN）的语言模型在多个benchmarks上达到当前state-of-the-art水平.尽管RNN作为通用逼近器具有出色的表达能力，但点积和Softmax的组合是否具有对条件概率（随上下文变化很大）进行建模的问题尚未得到明确回答。在这项工作中，我们从矩阵分解的角度研究了上述基于Softmax的循环语言模型的表达能力。我们表明，使用标准公式学习基于Softmax的循环语言模型等同于解决矩阵分解问题。更重要的是，由于自然语言是高度上下文相关的，分解后的矩阵可能是高秩的。这进一步表明，具有分布式（输出）词嵌入的标准的基于Softmax的语言模型不足以对自然语言进行建模。我们称之为Softmax瓶颈。我们提出了一种简单有效的方法来解决Softmax瓶颈。具体来说，我们将离散的潜在变量引入循环语言模型，并将下一个标记概率分布形式化为Softmax混合(MoS)。Softmax的混合比之前研究考虑的Softmax和其他替代方案具有更好的表达能力。此外，我们表明MoS可以学习具有更大归一化奇异值的矩阵，因此比Softmax和其他基于真实世界数据集的基准具有更高的等级。我们有两个主要贡献。首先，我们通过将语言建模形式化为矩阵分解问题来确定Softmax瓶颈的存在。其次，我们提出了一种简单而有效的方法，可以显着改进现有技术的结果。论文地址：https://arxiv.org/pdf/1711.03953.pdf摘要：我们将语言建模形式化为矩阵分解问题，并表明基于Softmax的模型（包括大多数神经语言模型）的表达能力受到Softmax瓶颈的限制.鉴于自然语言高度依赖于上下文，这进一步表明使用分布式词嵌入的Softmax实际上不足以对自然语言进行建模。我们提出了一个简单有效的方法来解决这个问题，并在PennTreebank和WikiText-2上将最先进的困惑度水平分别提高到47.69和40.68。PTB和WT2上的语言建模结果分别在表1和表2中给出。在参数数量相似的情况下，MoS在有和没有动态评估的情况下都优于所有基准，并实现了对当前最先进技术的显着改进（困惑度提高高达3.6）。表1：PennTreebank的验证集和测试集上的单个模型困惑。基准结果来自Merity等人。(2017)和Krause等人。(2017)。?表示使用了动态评估。表2：WikiText-2上各个模型的困惑度。基准结果来自Merity等人。(2017)和Krause等人。(2017)。?表示使用了动态评估。为了进一步验证上面给出的改进确实是源于MoS结构，而不是因为增加了额外的隐藏层或找到了一组特定的超参数，我们对PTB和WT2进行了消融研究（指去除模型以及算法的某些功能或结构，以了解它们如何影响模型和算法的结果）。表3：Switchboard的评估分数。表4：没有微调或动态评估的PennTreebank和WikiText-2的消融研究。我们绘制归一化奇异值的累积百分比，即归一化奇异值低于某个阈值的百分比。图1：给定[0,1]中的值的归一化奇异值的累积百分比。

上一篇：HarmonyOS基于ArkUI（ETS）实现雷达扫描

下一篇：什么是网络杀伤链？追踪网络攻击的模型_1

BeyondtheSoftmaxbottleneck-Ahigh-rankRNNlanguagemodel相关文章