英语:简(Jane)是最后一部分,并享受文化,并遇到了许多很棒的人。她不在乎自己的旅行有多艰难,并诱使我去。
看一下翻译之前和之后的两个段落。一个普通人如何翻译?面对艰难的句子,人类会部分翻译,并看一点翻译。例如,在阅读它之后,首先翻译它。但是,如果您使用我们以前的模型,则无法执行此操作,并且该机器只能在阅读后从头到尾翻译。如果是一个人,那么一个长句子在阅读它之后,您可能已经忘记了要说的话。尽管计算机的内存非常出色,但计算机的存储时间不能很好地存储在很长的信息中。因此,有必要使用当前零件注意计算机当前部分的当前部分。
仍然使用此示例:
我们必须首先使用编码器模型从中提取信息。此处是一个两条rnn,用于提取信息,以计算每个单词的特征。
解码器部分,当生成第一个输出时:
输入上下文由$ c $表示红色肩膀上的参数α表示,告诉我们上下文不取决于我们获得的特征值或我们从不同的激活值。因此,$ c $是特征值在注意力之后,在不同的时间步骤中。
其中,$ alpha^{} $符合非negatives,整个句子的总计$ alpha^{} $为1($ sum_1^t alpha^{} = 1 $)。
因此,第一步上下文$ c^{<1>} = sum_1^{t'} alpha^{<1,t'>} a^{
到第二步,您将重新计算并使用新的注意力重量,以生成新的上下文$ c^{<2>} $。
公式:$ alpha^{
经过这两个计算步骤之后,您可以直观地看到它。如果您想计算$ t'$步骤的激活值的关注,这在很大程度上取决于上一步($ t' - $)隐藏状态的激活值。
该算法的缺点之一是计算时间复杂性,但是NLP任务中的句子不会出色,因此该时间复杂性的小号是可以接受的。
此外,我对图像的应用感兴趣,以查看相关论文3。
原始:https://juejin.cn/post/7101335875383984142