注意模式

时间：2023-03-08 16:21:37 网络应用技术

　　英语：简（Jane）是最后一部分，并享受文化，并遇到了许多很棒的人。她不在乎自己的旅行有多艰难，并诱使我去。

　　看一下翻译之前和之后的两个段落。一个普通人如何翻译？面对艰难的句子，人类会部分翻译，并看一点翻译。例如，在阅读它之后，首先翻译它。但是，如果您使用我们以前的模型，则无法执行此操作，并且该机器只能在阅读后从头到尾翻译。如果是一个人，那么一个长句子在阅读它之后，您可能已经忘记了要说的话。尽管计算机的内存非常出色，但计算机的存储时间不能很好地存储在很长的信息中。因此，有必要使用当前零件注意计算机当前部分的当前部分。

　　仍然使用此示例：

　　我们必须首先使用编码器模型从中提取信息。此处是一个两条rnn，用于提取信息，以计算每个单词的特征。

　　解码器部分，当生成第一个输出时：

　　输入上下文由$ c $表示红色肩膀上的参数α表示，告诉我们上下文不取决于我们获得的特征值或我们从不同的激活值。因此，$ c $是特征值在注意力之后，在不同的时间步骤中。

　　其中，$ alpha^{} $符合非negatives，整个句子的总计$ alpha^{} $为1（$ sum_1^t alpha^{} = 1 $）。

　　因此，第一步上下文$ c^{<1>} = sum_1^{t'} alpha^{<1,t'>} a^{} $。

　　到第二步，您将重新计算并使用新的注意力重量，以生成新的上下文$ c^{<2>} $。

　　公式：$ alpha^{} = frac {exp left（e^{{{} ight）} {sum_ {t^{prime} = 1}^{t x} exp left（e^{{{{{{{} ight）} $

　　经过这两个计算步骤之后，您可以直观地看到它。如果您想计算$ t'$步骤的激活值的关注，这在很大程度上取决于上一步（$ t' - $）隐藏状态的激活值。

　　该算法的缺点之一是计算时间复杂性，但是NLP任务中的句子不会出色，因此该时间复杂性的小号是可以接受的。

　　此外，我对图像的应用感兴趣，以查看相关论文3。

　　原始：https：//juejin.cn/post/7101335875383984142

上一篇：使用Python使用Python需要多长时间

下一篇：小米的人造智能手机是什么？

注意模式相关文章