您好,欢迎来到爱够旅游网。
搜索
您的当前位置:首页batchsize的选择和学习率调整

batchsize的选择和学习率调整

来源:爱够旅游网

盲目增大Batch_Size的坏处:

  1. 跑完一次 epoch(全数据集)所迭代的次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢。大的batchsize性能下降是因为训练时间不够长,本质上并不少batchsize的问题,在同样的epochs下的参数更新变少了,因此需要更长的迭代次数
  2. Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
  3. 大的batchsize导致模型泛化能力下降,小的batchsize带来的噪声有助于逃离局部极小值。总之batchsize在变得很大(超过临界点)时,会降低模型的泛化能力。在这个临界点之下,模型的性能变换随batchsize通常没有学习率敏感。

batchsize和学习率的关系:

从两种常见的调整策略来看,学习率和batchsize都是同时增加的。学习率是一个非常敏感的参数,不可能太大,否则模型会不收敛。同样batchsize也会影响模型性能,那实际使用中都如何调整这两个参数呢?

研究表明,衰减学习率可以通过增加batchsize来实现类似的效果(同样,因为许多loss函数是除以了N),你从从SGD的权重更新式子就可以看出来两者确实是等价的。比如:在pytorch中torch.nn.MSELoss(size_average=True)如果size_average=True, 返回loss.mean();就是平均数如果为False,返回loss.sum(),此时batchsize增大loss也会增大!默认情况下,size_average=true。

两个建议:
如果增加了学习率,那么batchsize最好也跟着增加,这样收敛更稳定(因为batchsize大的话,每一步更新的准确性会更好,也就可以放心的往前走了)。适当使用大的学习率,因为很多研究都表明更大的学习率有利于提高泛化能力。如果要衰减,可以先尝试其他办法,比如增加batchsize,学习率对模型的收敛影响比较大,需慎重且多次调整。

如果大家有更好的观点和建议,希望留言交流!!

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务