找回密码
 立即注册
首页 业界区 安全 4.优化器 - 模型评估

4.优化器 - 模型评估

创蟀征 2025-6-1 21:57:03

  • 优化器 - optimizer

    • 优化器就是在深度学习反向传播过程中,指引损失函数(目标函数)的各个参数往正确的方向更新合适的大小,使得更新后的各个参数损失函数(目标函数)值不断逼近全局最小
      1.png

    • 优化器不计算梯度,他只是梯度的更新者,它决定了以什么样的形式更新参数
    • 如果损失函数是一座山峰,优化器会通过梯度下降,帮助我们以最快的方式,从高山下降到谷底

  • 优化器种类
  • 1.梯度
  • 2.梯度下降算法
    2.png


    • BGD:批量梯度下降法 在全训练集上计算精确的梯度
    • SGD: 随机梯度下降法 采样单个样本来评估的当前梯度
    • mini-batch GD:mini-batch梯度下降法使用batch的一个子集来计算梯度
    • 为了获取准确的梯度,批量梯度下降法的每一步都把整个训练集载入进来进行计算,时间花费和内存开销都非常大,无法应用于大数据集、大模型的场景
    • 随机梯度下降法则放弃了对梯度准确性的追求,每步仅仅随机采样一个样本来估计当前梯度,计算速度快,内存开销小,但由于每步接受的信息量有限,随机梯度下降法对梯度的估计常常出现偏差,造成目标函数曲线收敛得很不稳定,伴有剧烈的波动,有时甚至出现不收敛的情况
    • 鉴于BGD和SGD各自的局限性,目前得训练采用Mini-Batch GD,每次对batch size得数据进行梯度计算,更新参数
      3.png


  • 3.Momentum
    4.png


    • 引入 惯性保持(动量)思想,Vt由两部分组成:一是学习率n乘以当前估计得梯度gt;二是带衰减的前一次步伐Vt-1。Vt直接依赖于Vt-1和gt,而不仅仅是gt。另外衰减系数γ扮演了阻力得作用
      5.png


  • 4.AdaGrad
    6.png


    • 引入 自适应思想,训练过程中,学习速率逐渐衰减,经常更新的参数其学习速率衰减更快
    • AdaGrad 方法采用所有 历史梯度平方和平方根做分母,分母随机时间单调递增,产生得自适应学习速率随时间衰减的速度过于激进
    • 此方法过于激进

  • 5.RMSprop

    • RMSprop是Hinton在课程中提到得一种方法,是对AdaGrad算法得改进,主要是解决学习速率过快衰减得问题
      7.png

    • 采用梯度平方的指数加权移动平均值,其中一般取0.9,有助于避免学习速率很快下降得问题,学习率建议取值为0.001

  • 6.Adam - 目前应用最广得方法

    • Adam 方法将惯性保持(动量)和自适应这两个有点集于一身
    • Adam 记录梯度的 一阶矩(first moment),即 过往梯度与当前梯度得平均,这体现了惯性保持:
      8.png

    • Adam 还记录梯度的 二阶矩(second moment),即 过往梯度平方与当前梯度平方的平均,这类似AdaGrad方法,体现了自适应能力,为不同参数产生自适应学习速率:
      9.png

    • 一阶矩 和 二阶矩 采用类似于滑动窗口内求平均得思想进行融合,即 当前梯度和近一段时间内梯度的平均值,时间久远的梯度对当前平均值得贡献呈指数衰减
      10.png




  • 评估指标 - PRF(Precision、Recall、F1)
  • 2.分类模型

    • Accuracy
      11.png

    • 2.混淆矩阵 - Confusion Matrix
      12.png

      13.png

    • Precision
      14.png


      • 准确率,表示预测结果中,预测为正样本的样本中,正确预测的概率

    • Recall
      15.png


      • 召回率,表示原始样本的正样本中,被正确预测为正样本的概率

    • Precision和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分类器需要尽量在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致Recall值降低
    • F1
      16.png


      • F1-score时Precision和Recall两者的综合,是一个综合性的评估指标
      • Micro-F1:不区分类别,直接使用总体样本的准召计算f1 score
      • Macro-F1:先计算出每一个类别的准召及其f1 score,然后通过求均值得到再整个样本上的f1 score
      • 数据均衡,两者均可;样本不均衡,相差很大,使用Macro-F1;样本不均衡;相差不大,优先选择Micro-F1

    • 其它分类模型
      17.png

      18.png

      19.png

      20.png



来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册