使用成熟的Tensorflow和PyTorch框架实现递归神经网络(RNN),大大降低了技术的使用门槛。然而,对于初学者来说,这还不够。如果你知道它是什么,你需要知道它为什么会这样。避免低级错误,打好扎实的理论基础,再用RNN去解决更多的实际问题。因此,有一个有趣的问题需要思考:如何在不使用Tensorflow等框架且仅使用Numpy的情况下构建RNN?如果您没有线索,请不要担心。这里有一个教程:使用Numpy从头开始??为NLP构建RNN。可以带你了解RNN的构建过程。初始化参数不同于传统的神经网络。RNN有3个权重参数,分别是:输入权重(inputweights)、内部状态权重(internalstateweights)和输出权重(outputweights)。首先,用随机值初始化上述三个参数。之后,将词嵌入维度(word_embeddingdimension)和输出维度(outputdimension)分别初始化为100和80。输出维度是词汇表中存在的唯一词向量的总数。hidden_??dim=100output_dim=80#thisisthetotaluniquewordsinthevocabularyinput_weights=np.random.uniform(0,1,(hidden_??dim,hidden_??dim))internal_state_weights=np.random.uniform(0,1,(hidden_??dim,hidden_??dim))output_weights=np.r0,1,(output_dim,hidden_??dim))变量prev_memory指的是internal_state(这些是之前序列的记忆)。其他参数也被赋予初始值。input_weight梯度、internal_state_weight梯度和output_weight梯度分别命名为dU、dW和dV。变量bptt_truncate表示网络在反向传播时必须回溯的时间戳数,这样做是为了克服梯度消失的问题。prev_memory=np.zeros((hidden_??dim,1))learning_rate=0.0001nepoch=25T=4#lengthofsequencebptt_truncate=2dU=np.zeros(input_weights.shape)dV=np.zeros(output_weights.shape)dW=np.zeros(internal_state_weights.**对应于索引64,标点符号.**对应于索引1。为了显示从输入到输出的过程,我们首先随机初始化每个单词的词嵌入。input_string=[2,45,10,65]embeddings=[]#thisisthesentenceembeddinglistthatcontainstheembeddingsforeachwordforiinrange(0,T):x=np.random.randn(hidden_??dim,1)embeddings.append(x)输入完成,输出接下来需要考虑。在这个项目中,RNN单元接收输入并输出下一个最有可能的词。对于训练RNN,当给定第t+1个词作为输出时,第t个词作为输入,例如:当RNN单元输出“like”这个词时,给定的输入词是“I”。现在输入是嵌入向量的形式,计算损失函数(Loss)所需的输出格式是单热编码(One-Hot)向量。对输入字符串中除第一个词以外的每个词都这样做,因为神经网络学习只学习一个例句,而初始输入是句子的第一个词。RNN的黑盒计算现在有了权重参数,知道了输入输出,就可以开始前向传播的计算了。训练神经网络需要进行以下计算:其中:U代表输入权重,W代表内部状态权重,V代表输出权重。输入权重乘以input(x),内部状态权重乘以前一层的激活(prev_memory)。层与层之间使用的激活函数使用tanh。deftanh_activation(Z):return(np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z))#这个tanh函数也可以写成np.tanh(Z)defsoftmax_activation(Z):e_x=np.exp(Z-np.max(Z))#thisisthecodeforsoftmaxfunctionreturne_x/e_x.sum(axis=0)defRnn_forward(input_embedding,input_weights,internal_state_weights,prev_memory,output_weights):forward_params=[]W_frd=np.dot(internal_state_weights,prev_memory)U_frd=np.dot(input_weights,input_embedding)sum_s=W_frd+U_frdht_activated=tanh_activation(sum_s)yt_unactivated=np.asarray(np.dot(output_weights,tanh_activation(sum_s)))yt_activated=softmax_activation(yt_unactivated.paramated)forward附录([[w_frd,u_frd,sum_s,yt_unactivated])returnht_activit,yt_activit,forward_params计算计算计算损失之后之后之后函数函数函数使用使用的的的是是交叉是交叉交叉交叉交叉fory,y_inzip(output_mapper.values(),predicted_output):#thisforloopcalculationisforthefirstequation,wherelossforeachtime-stampiscalculatedloss=-sum(y[i]*np.log2(y_[i])foriinrange(len(y)))lossloss=loss/float(len(y))layer_loss.append(loss)foriinrange(len(layer_loss)):#thisthetotallosscalculatedforallthetotallosscalculatedforallthetime-stampsconsideredtogether.total_losstotal_loss=total_loss+layer_loss[i]returntotal_loss/float(len(predicted_output))最重要的是,我们需要看上面代码中的第5行我们知道,ground_truthoutput(y)的形式是[0,0,....,1,...0]和predicted_output(y^hat)的形式为[0.34,0.03,...,0.45],我们需要损失是单个值才能从中推断出总损失.为此,请使用sum函数获取特定时间戳处y和y^hat向量中每个值的误差总和。total_loss是整个模型的损失(包括所有时间戳)。反向传播和反向传播的链式法则:如上图所示:Cost表示error,表示y^hat与y的差值。由于Cost是的函数输出,激活a反映的变化用dCost/da表示。实际上,这意味着更改(错误)值是从活动节点的角度来看的。同样,a相对于z的变化表示为da/dz,z相对于w的变化表示为dw/dz。最终,我们关心的是权重变化了多少(误差)。由于权重和Cost之间没有直接关系,所以可以直接乘以期间内的相对变化值(如上式所示)。RNN的反向传播由于RNN中有三个权重,所以我们需要三个梯度。input_weights(dLoss/dU)、internal_state_weights(dLoss/dW)和output_weights(dLoss/dV)的梯度。这三个梯度的链可以表示如下:dLoss/dy_unactivated代码如下:.asarray(np.concatenate(grad,axis=0))grad[i]-=1returngrad计算两个梯度函数,一个是multiplication_backward,一个是additional_backward。在multiplication_backward的情况下,返回2个参数,一个是关于权重的梯度(dLoss/dV),另一个是链梯度,它将成为计算另一个权重梯度的链的一部分。在addition_backward的情况下,计算导数时,加法函数(ht_unactivated)中各个分量的导数为1。例如:dh_unactivated/dU_frd=1(h_unactivated=U_frd+W_frd),dU_frd/dU_frd的导数为1、因此计算梯度只需要这两个函数。multiplication_backward函数用于涉及向量点积的方程,addition_backward用于涉及两个向量相加的方程。defmultiplication_backward(权重,x,dz):gradient_weight=np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))chain_gradient=np.dot(np.transpose(权重),dz)returngradient_weight,chain_gradientdefadd_backward(x1,x2,dz):#thisfunctionisforcalculatingthederivativeofht_unactivatedfunctiondx1=dz*np.ones_like(x1)dx2=dz*np.ones_like(x2)returndx1,dx2deftanhiffward(x2)(x)返回(1.0-np.square(output))*top_diff至此,RNN的反向传播已经分析明白了。目前它在单个时间戳上实现其功能,然后可用于计算时间戳上的所有梯度。如下代码所示,forward_params_t是一个包含网络在特定时间步的前向参数的列表。变量ds是关键部分,因为这行代码考虑了之前时间戳的隐藏状态,这将有助于在反向传播时提取所需的信息。defsingle_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):#inlidealltheparamvaluesforallthedatathatsthereW_frd=forward_params_t[0][0]U_frd=forward_params_t[0][1]ht_unactivated=forward_params_t[0][1]ht_unactivated=forward_params2_=forward_params_t[0][3]dV,dsv=multiplication_backward(output_weights,ht_activated,dLo)ds=np.add(dsv,diff_s)#usedfortruncationofmemorydadd=tanh_activation_backward(ht_unactivated,ds)dmulw,dmulu=add_backward(U_frd,W_frd,dadd)dW,dprev_s=multiplication_backward(internal_state_weights,prev_s,dmulw)dU,dx=multiplication_backward(input_weights,X,dmulu)#inputweightsreturn(dprev_s,dU,dW,dV)对于RNN,由于梯度消失的问题,所以使用截断反向传播而不是使用原始反向传播。在这种技术中,当前单元将只查看k个时间戳而不是一次,其中k表示要回溯的先前单元的数量。defrnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):T=4#westartthebackpropfromthefirsttimestamp.fortinrange(4):prev_s_t=np.zeros((hidden_??dim,1))#requiredasthefirsttimestampdoesnothaveaprevious_smory,差异=np.zeros((hidden_??dim,1))#thisisusedforthetruncatingpurposeofrestoringapreviousinformationfromthebeforelevelpredictions=memory["yt"+str(t)]ht_activated=memory["ht"+str(t)]forward_params_t=内存["params"+str(t)]dLo=delta_cross_entropy(预测,output_t[t])#thelossderivativeforthatparticulartimestampdprev_s,dU_t,dW_t,dV_t=single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t=ht-prev_s1dLo=np.zeros((output_dim,1))#herethelossderiativeisturnedto0aswedonotrequireitfortheturncatedinformation.#thefollowingcodeisforthetrunateddbpttanditsforeachtime-stamp.foriinrange(t-1,max(-1,t-bptt_truncate),-1):forward_params_t=内存["params"+str(i)]ht_activated=内存["ht"+str(i)]prev_s_i=np。zeros((hidden_??dim,1))ifi==0elsemory["ht"+str(prev)]dprev_s,dU_i,dW_i,dV_i=single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)dU_t+=dU_i#addingthepreviousgradientsonlookbacktothecurrenttimesequencedW_t+=dW_idV+=dV_tdU+=dU_tdW+=dW_treturn(dU,dW,dV)权重更新一旦使用反向传播计算了梯度,就必须更新权重,这些都是通过批量梯度下降完成的方法defgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights):input_weights-=learning_rate*dUinternal_state_weights-=learning_rate*dWoutput_weights-=learning_rate*dVreturninput_weights,internal_state_weights-=learning_rate*dWoutput_weights-=learning_rate*dVreturninput_weights-state=internal_statelearning_rate*dWoutput_weights-=learning_rate*dVreturninput_weights,internal_state_weights,可以开始训练所有的神经序列训练步骤r网络的训练是静态的,也可以采用逐渐衰减等动态的方法来改变学习率。deftrain(T,embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001,nepoch=100,evaluate_loss_after=2):losses=[]forepochinrange(nepoch):if(epoch%evaluate_loss_after==0):output_string,memory=full_forward_prop(T,embeddings,input_weights,internal_state_weights,prev_memory,output_weights)loss=calculate_loss(output_mapper,output_string)losses.append(loss)time=datetime.now().strftime('%Y-%m-%d%H:%M:%S')print("%s:Lossafterepoch=%d:%f"%(time,epoch,loss))sys.stdout.flush()dU,dW,dV=rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)input_weights,internal_state_weights,output_weights=sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)returnlosseslosses=train(T,embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001,nepoch=10,evaluate_loss_after=2)恭喜!您现在已经从头开始构建了一个递归神经网络!所以,是时候转向LSTM和GRU等高级架构了
