优化器-optimizer 汇总

来自:    更新日期:早些时候
~ 在神经网络的训练过程中,有两个核心概念:损失函数和优化函数。损失函数作为评价指标,而优化函数则决定了网络的优化策略。为了更高效地优化网络结构,我们需要选择恰当的优化函数。常见的优化函数包括:SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam等。

SGD(Stochastic Gradient Descent 随机梯度下降)是一种基于随机梯度下降算法的参数更新方法,每次只使用一个样本数据进行更新。每个epoch参数更新M(样本数)次,其中随机性体现在每次选取哪个样本是随机的,每个epoch样本更新的顺序也是随机的。

BGD(Batch Gradient Descent 批量梯度下降)每次将所有样本的梯度求和,然后根据梯度和对参数进行更新,每个epoch参数更新1次。

MBGD(Mini-batch Gradient Descent 小批量梯度下降)每次利用一小批样本进行计算,本质上就是在每个batch内部使用BGD策略,在batch外部使用SGD策略。

Momentum(动量梯度下降)引入物理“动量”的概念,累积速度,减少震荡,使参数更新的方向更稳定。每次梯度更新都会带有前几次梯度方向的惯性,使梯度的变化更加平滑。

NAG(Nesterov Accelerated Gradient 牛顿动量梯度下降)是Momentum算法的改进,通过根据此次梯度(i-1)和上一次梯度(i-2)的差值对Momentum算法得到的梯度进行修正,提高了算法的优化速度。

Adagrad(Adaptive Gradient Algorithm 自适学习率应梯度下降)根据不同参数距离最优解的远近,动态调整学习率。

RMSprop(root mean square prop)解决Adagrad分母会不断积累,导致学习率收缩并最终变得非常小的问题。

AdaDelta优化器对RMSProp算法进一步优化,不需要指定超参数。

Adam算法结合了动量和自适应学习率两个优化思路,既能适应稀疏梯度,又能缓解梯度震荡的问题。

AdamW和LARS是Adam算法的改进版本,LARS可以适应每层的学习率。

优化器选择需要考虑数据集特征、训练设置和项目目标。对于稀疏数据,可以选择Adagrad、Adadelta、RMSprop、Adam等优化器。Adam通常被认为是效果最好的选择。

在选择优化器之前,应了解其优缺点,并根据项目资源进行选择。


优化器-optimizer 汇总视频

相关评论:

相关主题精彩

版权声明:本网站为非赢利性站点,内容来自于网络投稿和网络,若有相关事宜,请联系管理员

Copyright © 喜物网