batchsize的选择和学习率调整

来源：爱够旅游网

盲目增大Batch_Size的坏处：

跑完一次 epoch（全数据集）所迭代的次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。大的batchsize性能下降是因为训练时间不够长，本质上并不少batchsize的问题，在同样的epochs下的参数更新变少了，因此需要更长的迭代次数。
Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。
大的batchsize导致模型泛化能力下降，小的batchsize带来的噪声有助于逃离局部极小值。总之batchsize在变得很大（超过临界点)时，会降低模型的泛化能力。在这个临界点之下，模型的性能变换随batchsize通常没有学习率敏感。

batchsize和学习率的关系：

从两种常见的调整策略来看，学习率和batchsize都是同时增加的。学习率是一个非常敏感的参数，不可能太大，否则模型会不收敛。同样batchsize也会影响模型性能，那实际使用中都如何调整这两个参数呢？

研究表明，衰减学习率可以通过增加batchsize来实现类似的效果（同样，因为许多loss函数是除以了N)，你从从SGD的权重更新式子就可以看出来两者确实是等价的。比如：在pytorch中torch.nn.MSELoss(size_average=True)如果size_average=True, 返回loss.mean();就是平均数如果为False,返回loss.sum()，此时batchsize增大loss也会增大！默认情况下，size_average=true。

两个建议：
如果增加了学习率，那么batchsize最好也跟着增加，这样收敛更稳定（因为batchsize大的话，每一步更新的准确性会更好，也就可以放心的往前走了）。适当使用大的学习率，因为很多研究都表明更大的学习率有利于提高泛化能力。如果要衰减，可以先尝试其他办法，比如增加batchsize，学习率对模型的收敛影响比较大，需慎重且多次调整。

如果大家有更好的观点和建议，希望留言交流！！

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文