由于网络层的数量相对较大,因此有许多拟合条件,整理的情况将相对较小。
一般来说,如何防止一些基本操作:
1)提供更多数据
2)减少模型的复杂性,以减少神经网络结构的层或正则化方法的数量或正则化方法
3)辍学去除一部分神经元
4)数据增强数据增强
5)早期停止使训练过程的早期结束
结果输出:
由于设置时期太小,并且神经网络没有完全训练,因此目前损失正在不断减少,并且没有适合训练。
问题:正则操作是减少参数的分布以避免过度拟合,但是当参数数接近0时,模型的复杂性将减少?
答案:由于高维函数的高维部分的参数接近0,因此正规化也称为重量衰减
正则化两类:分隔的基础是样品数量之间的差异1)L1-regularization图像
2)L2调节(更常用)
对于L2调节化,Pytorch具有直接使用它的直接API界面,这更方便,L1进行了人工添加。
应当指出的是,正则操作是为了避免网络结果的复杂性,因此有必要限制参数不能太大,也就是说,避免过度拟合。如果没有发生网络,则使用正规化操作将使培训效果更糟
1)动量
其中,可以将ZK理解为最后梯度更新的方向。增加动量的机理的增加等同于当前梯度的方向,而且等同于先前梯度的方向,即两个梯度变化信息的全面组合信息,信息可以称重。
nn.batchnorm2d(128,0.8),
这个想法非常简单,也就是说,使用Val数据进行验证。如果准确性开始下降,您可以提前终止培训,并且可以使用目前认为的最后一组参数。实际上,也涉及此想法之前的推文。这些步骤归因于:
1)验证集以选择参数:Val数据集验证以选择参数
2)监视验证磨损:手动监视以查看性能
3)停止以最高精度的最高阀门:停止实验
辍学的想法是去除一部分神经元,即
它类似于思想的正则化,但是思维的正则化是使用2个模型迫使参数的复杂性减少|w | - > 0,这使参数总数接近0,并且您需要使用所有参数,这可以简化某些参数之间的输入和输出练习∑w-> 0,这使有效参数作为有效参数为尽可能小。可以更改辍学。有效参数量减少,网络结构避免了噪声导致最终结果干扰
原始:https://juejin.cn/post/7096293191065796615