对于Glorot条件,当数据流过每一层时,数据流过每一层,并且在反向传播过程中数据流过每一层。前者称为正向通信条件,后者称为反向通信条件。当数据流到某个层时,可以通过以下方式计数此神经元所接收的数据:
其中,当前神经元在一定层的神经元上收到的数据,?指示神经元上一层的数据以及相应两个神经元之间的连接重量。作为一个随机变量,上部形式可以代表计算过程的一般情况。和 ??如下:
var()表示方差的计算,而e()表示平均计算。由于我们假设参数以平均值为0的平均分布或正态分布均匀分布为平均值,(??)= 0,在我们引入之前,假设输入数据以零为中心,那么?(??))= 0,因此可以进一步简化上层公式:
我们可以认为X和W是独立的和分布式的(一个是收集和处理后的数据,另一个是随机生成的参数),所以每个???(??)???(??)也是独立和分发的独立和分布。因此,所有?可以与随机变量一起使用吗?它也可以表达出来吗?还可以使用随机变量吗?代表
其中,n是上一层中的神经元的数量。应注意的是,上层类型仅考虑积极交流的情况,当实际进行实际传播时,上述过程恰好是相反的。传播,z表示上一个神经元层接收到的数据,而x表示当前层的数据。尽管计算公式没有变化,但n的含义已更改。为了区分n,n是代表神经元上一个神经元中神经元数量的变量,该变量被传播时。变量命名??。
更严格的,指在传播过程中的一定数量的神经元,下一层神经元中的神经元数量是扇子中的,并且扇出风扇。方差也可以写为???(?)= 2/((???????+????????)),此外,Xavier在论文中指出的是什么,应维护每个层的激活值和梯度,方差在传播过程,也称为荣耀条件。
本文涉及的自我建设功能
当将num_epochs带到2(仅一轮)时,由Xavier初始化的模型的整体梯度更加稳定,并且没有梯度消失。另一方面,发生了梯度消失的趋势。我们知道,每一层梯度的状况代表模型学习的状态。显然,初始化的模型处于平稳的学习状态。目前,模型收敛速度更快。我们还可以通过MSE曲线进行验证。
Xavier初始化的核心是确保每层梯度值的稳定分布,从而确保学习每个层模型的有效性。最后,就模型结果的性能而言,Xavier初始化参数的模型学习效率更高,并且收敛速度更快。
在某些极端情况下,Xavier的初始化效果将更加明显。将四层sigmoid隐藏层的神经网络作为一个例子,当观察到梯度消失消失时Xavier初始化的效果。
Sigmoid_model4在先前的实验中具有严重梯度消失的模型。由于前几层学习能力的基本丧失,Sigmoid_model4本身的效果不好。但是,在添加Xavier以初始化之后,INIT模型可以极大地避免消失梯度的问题,从而获得更好的结果。
与Sigmoid激活函数相比,Xavier初始化方法更适合于Tanh激活函数。核心原因是TANH激活函数本身可以生成零中心的数据。通过Xavier初始化生成的参数,每一层的梯度都稳定并且每层均匀。
可以看出,初始化Xavier参数后模型的梯度更稳定,然后我们判断,初始化后模型初始迭代处的收敛速度更快
该模型会收敛得更快,并且在迭代后变得更加稳定。
初始化后的模型收敛速度得到显着提高。