1.定义
batch_size:每次示例的样本数。
epoch_size:训练样本总数(即,每个样品的次数等效于迭代)。
2. batch_size:
batch_size来自:迷你批次梯度下降。
(1)批处理梯度降低(BGD):时期训练所有样品以再次更新梯度。
(2)随机梯度降低(SGD):每个训练样本并再次更新梯度。
(3)迷你批次梯度下降:将总数据分为几批,并更新每个批次的梯度。每个批次的大小均为批次。
综上所述:
划分尺寸越大,速度越快,精度越低(相同的训练轮)。
batch_size的调整:
(1)当有足够的计算能力时,批处理大小为32或更小。
(2)当计算能力不足时,请在效率和概括之间进行权衡,并尝试选择较小的批量尺寸。
(3)当模型训练到结束时,我想改善结果(例如论文实验/竞争到最后)。
(4)当然,batch_size的增加将加快加速,但是伪装需要更多的时期(车轮数)才能达到所需的准确性。
诡计:
基于128个大小,将最终结果与两个方向进行比较(乘以2次)。
3. epoch_size:
时期大小的确定涉及一种防止过度拟合的方法:提前停止训练。
随着时期数量的增加,神经网络中的权重数也增加了,模型也因欠款而变化。
诡计:
您可以首先设置固定的时期尺寸(100发子弹)
通常,当模型的丢失不再继续减少,并且在10轮内无法提高准确性时,可以提前停止训练(设定以停止时期的条件)。
原始:https://juejin.cn/post/7095554186999102