优化器-optimizer 汇总

来自：更新日期：早些时候

~ 在神经网络的训练过程中，有两个核心概念：损失函数和优化函数。损失函数作为评价指标，而优化函数则决定了网络的优化策略。为了更高效地优化网络结构，我们需要选择恰当的优化函数。常见的优化函数包括：SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta，RMSprop、Adam等。

SGD（Stochastic Gradient Descent 随机梯度下降）是一种基于随机梯度下降算法的参数更新方法，每次只使用一个样本数据进行更新。每个epoch参数更新M（样本数）次，其中随机性体现在每次选取哪个样本是随机的，每个epoch样本更新的顺序也是随机的。

BGD（Batch Gradient Descent 批量梯度下降）每次将所有样本的梯度求和，然后根据梯度和对参数进行更新，每个epoch参数更新1次。

MBGD（Mini-batch Gradient Descent 小批量梯度下降）每次利用一小批样本进行计算，本质上就是在每个batch内部使用BGD策略，在batch外部使用SGD策略。

Momentum（动量梯度下降）引入物理“动量”的概念，累积速度，减少震荡，使参数更新的方向更稳定。每次梯度更新都会带有前几次梯度方向的惯性，使梯度的变化更加平滑。

NAG（Nesterov Accelerated Gradient 牛顿动量梯度下降）是Momentum算法的改进，通过根据此次梯度（i-1）和上一次梯度（i-2）的差值对Momentum算法得到的梯度进行修正，提高了算法的优化速度。

Adagrad（Adaptive Gradient Algorithm 自适学习率应梯度下降）根据不同参数距离最优解的远近，动态调整学习率。

RMSprop（root mean square prop）解决Adagrad分母会不断积累，导致学习率收缩并最终变得非常小的问题。

AdaDelta优化器对RMSProp算法进一步优化，不需要指定超参数。

Adam算法结合了动量和自适应学习率两个优化思路，既能适应稀疏梯度，又能缓解梯度震荡的问题。

AdamW和LARS是Adam算法的改进版本，LARS可以适应每层的学习率。

优化器选择需要考虑数据集特征、训练设置和项目目标。对于稀疏数据，可以选择Adagrad、Adadelta、RMSprop、Adam等优化器。Adam通常被认为是效果最好的选择。

在选择优化器之前，应了解其优缺点，并根据项目资源进行选择。

优化器-optimizer 汇总视频

喜物网dongwu.xikan.tv

优化器-optimizer 汇总

相关主题精彩