当前位置: 首页 > 科技观察

将未来信息作为正则项,Twin Networks加强RNN对长期依赖的建模能力

时间:2023-03-18 16:04:46 科技观察

使用未来信息作为正则项,TwinNetworks加强了RNN对长期依赖建模的能力。因为前向RNN包含前一个序列的信息,而后向RNN包含相同位置的未来信息,将这两种信息用正则化项连接起来将有助于RNN获得学习长期依赖的能力。论文地址:https://arxiv.org/abs/1708.06742对时序数据(如文本)的长期依赖建模一直是循环神经网络中长期存在的问题。这个问题与目前的RNN架构还没有明确的规划密切相关。更具体地说,RNN仅在给定前一个标记的情况下预测下一个标记。在本文中,我们介绍了一种鼓励RNN规划未来的简单方法。为了实现这个规划,我们引入了一个额外的神经网络,它向后训练并生成序列,并且要求前向RNN和后向RNN中的状态具有一定的接近度才能预测相同的符号。在每一步,前向RNN的状态都被要求与后向状态中包含的未来信息相匹配。我们假设这种方法简化了长期依赖性的建模,因此更有利于生成全局一致的样本。该模型在语音识别任务上实现了12%的相对改进(6.7CER对比7.6基线)。给模型一个数据集X={x^1,...,x^n},其中x={x_1,...,x_T}是观测序列,RNN模型对于序列空间的概率p(x)及其概率密度建模,通常我们会训练P来最大化观测数据的对数似然函数:RNN会分解概率的序列转化为:即RNN预测给定所有前面的元素一个元素。在每一步,RNN迭代地总结时间步t之前的序列值来更新一个隐藏状态(下面用h_ft表示)。即,其中f代表网络向前读取序列,Φ_f是一个典型的非线性函数,比如一个LSTM单元。预测值x_t在h_ft之上再进行一次非线性变换,即p_f(x_t|x