与Sigmoid和Tanh激活函数不同,Relu激活函数的叠加没有梯度消失或梯度爆炸。称为神经元活动失败的问题。
首先,通过实验观察神经元活动失败的问题(死RU问题)。在建模过程中的直接性能,Relu叠加的模型在迭代后的MSE时以高度的价值收敛。
本文涉及的自我建设功能
在模型进行多个回合之后,训练错误和测试错误是在每个值的高级别收敛的,也就是说,随着模型迭代测试的增加,误差不会减少。不难通过简单发现试图。目前,所有数据的输出结果为0。
神经元活动的问题与Relu激活函数本身的特征有关。首先,观察Relu激活函数函数图像和指南功能图像。
当学习率为0.03时,MSE摇动并以相对“高”的位置收敛,模型无效以降低学习率,并且迭代次数将增加数量
学习率很小后,模型可以避免神经元活动的陷阱。