Xarier的深度学习和Kaiming方法的方法

时间：2023-03-07 11:01:07 网络应用技术

　　对于Glorot条件，当数据流过每一层时，数据流过每一层，并且在反向传播过程中数据流过每一层。前者称为正向通信条件，后者称为反向通信条件。当数据流到某个层时，可以通过以下方式计数此神经元所接收的数据：

　　其中，当前神经元在一定层的神经元上收到的数据，？指示神经元上一层的数据以及相应两个神经元之间的连接重量。作为一个随机变量，上部形式可以代表计算过程的一般情况。和？？如下：

　　var（）表示方差的计算，而e（）表示平均计算。由于我们假设参数以平均值为0的平均分布或正态分布均匀分布为平均值，（??）= 0，在我们引入之前，假设输入数据以零为中心，那么？（??））= 0，因此可以进一步简化上层公式：

　　我们可以认为X和W是独立的和分布式的（一个是收集和处理后的数据，另一个是随机生成的参数），所以每个？？？（??）???（??）也是独立和分发的独立和分布。因此，所有？可以与随机变量一起使用吗？它也可以表达出来吗？还可以使用随机变量吗？代表

　　其中，n是上一层中的神经元的数量。应注意的是，上层类型仅考虑积极交流的情况，当实际进行实际传播时，上述过程恰好是相反的。传播，z表示上一个神经元层接收到的数据，而x表示当前层的数据。尽管计算公式没有变化，但n的含义已更改。为了区分n，n是代表神经元上一个神经元中神经元数量的变量，该变量被传播时。变量命名？？。

　　更严格的，指在传播过程中的一定数量的神经元，下一层神经元中的神经元数量是扇子中的，并且扇出风扇。方差也可以写为???（？）= 2/（（???????+????????）），此外，Xavier在论文中指出的是什么，应维护每个层的激活值和梯度，方差在传播过程，也称为荣耀条件。

　　本文涉及的自我建设功能

　　当将num_epochs带到2（仅一轮）时，由Xavier初始化的模型的整体梯度更加稳定，并且没有梯度消失。另一方面，发生了梯度消失的趋势。我们知道，每一层梯度的状况代表模型学习的状态。显然，初始化的模型处于平稳的学习状态。目前，模型收敛速度更快。我们还可以通过MSE曲线进行验证。

　　Xavier初始化的核心是确保每层梯度值的稳定分布，从而确保学习每个层模型的有效性。最后，就模型结果的性能而言，Xavier初始化参数的模型学习效率更高，并且收敛速度更快。

　　在某些极端情况下，Xavier的初始化效果将更加明显。将四层sigmoid隐藏层的神经网络作为一个例子，当观察到梯度消失消失时Xavier初始化的效果。

　　Sigmoid_model4在先前的实验中具有严重梯度消失的模型。由于前几层学习能力的基本丧失，Sigmoid_model4本身的效果不好。但是，在添加Xavier以初始化之后，INIT模型可以极大地避免消失梯度的问题，从而获得更好的结果。

　　与Sigmoid激活函数相比，Xavier初始化方法更适合于Tanh激活函数。核心原因是TANH激活函数本身可以生成零中心的数据。通过Xavier初始化生成的参数，每一层的梯度都稳定并且每层均匀。

　　可以看出，初始化Xavier参数后模型的梯度更稳定，然后我们判断，初始化后模型初始迭代处的收敛速度更快

　　该模型会收敛得更快，并且在迭代后变得更加稳定。

　　初始化后的模型收敛速度得到显着提高。

上一篇：如何使用Django新项目

下一篇：React Hooks清除指南，不再是新秀

Xarier的深度学习和Kaiming方法的方法相关文章