当前位置: 首页 > 网络应用技术

注意模式

时间:2023-03-08 16:21:37 网络应用技术

  

  英语:简(Jane)是最后一部分,并享受文化,并遇到了许多很棒的人。她不在乎自己的旅行有多艰难,并诱使我去。

  看一下翻译之前和之后的两个段落。一个普通人如何翻译?面对艰难的句子,人类会部分翻译,并看一点翻译。例如,在阅读它之后,首先翻译它。但是,如果您使用我们以前的模型,则无法执行此操作,并且该机器只能在阅读后从头到尾翻译。如果是一个人,那么一个长句子在阅读它之后,您可能已经忘记了要说的话。尽管计算机的内存非常出色,但计算机的存储时间不能很好地存储在很长的信息中。因此,有必要使用当前零件注意计算机当前部分的当前部分。

  仍然使用此示例:

  我们必须首先使用编码器模型从中提取信息。此处是一个两条rnn,用于提取信息,以计算每个单词的特征。

  解码器部分,当生成第一个输出时:

  输入上下文由$ c $表示红色肩膀上的参数α表示,告诉我们上下文不取决于我们获得的特征值或我们从不同的激活值。因此,$ c $是特征值在注意力之后,在不同的时间步骤中。

  其中,$ alpha^{} $符合非negatives,整个句子的总计$ alpha^{} $为1($ sum_1^t alpha^{} = 1 $)。

  因此,第一步上下文$ c^{<1>} = sum_1^{t'} alpha^{<1,t'>} a^{} $。

  到第二步,您将重新计算并使用新的注意力重量,以生成新的上下文$ c^{<2>} $。

  公式:$ alpha^{} = frac {exp left(e^{{{} ight)} {sum_ {t^{prime} = 1}^{t x} exp left(e^{{{{{{{} ight)} $

  经过这两个计算步骤之后,您可以直观地看到它。如果您想计算$ t'$步骤的激活值的关注,这在很大程度上取决于上一步($ t' - $)隐藏状态的激活值。

  该算法的缺点之一是计算时间复杂性,但是NLP任务中的句子不会出色,因此该时间复杂性的小号是可以接受的。

  此外,我对图像的应用感兴趣,以查看相关论文3。

  原始:https://juejin.cn/post/7101335875383984142