Datawhale X 李宏毅苹果书AI夏令营 Task 2 学习笔记

《深度学习详解》笔记 - 3.3 自适应学习率

摘要

自适应学习率是优化深度学习模型过程中重要的技术，它能根据梯度的变化自动调整学习率，从而提高训练效率。Task 2总结了自适应学习率的概念、主要方法（包括AdaGrad、RMSProp和Adam），并探讨了学习率调度策略的应用，以解决训练中的各种问题，如梯度震荡和训练停滞。

自适应学习率的概念

在深度学习模型的训练过程中，学习率的选择至关重要。学习率过大可能导致参数在误差表面上震荡，难以收敛到最优解；学习率过小则可能导致训练时间过长，甚至陷入局部最小值。自适应学习率方法旨在根据梯度的变化，自动调整每个参数的学习率，从而在不同的训练阶段或不同的参数上采用最合适的步伐。

主要自适应学习率方法

AdaGrad: 通过对过去梯度的累积来调整学习率，对于梯度较大的方向，学习率会减小；对于梯度较小的方向，学习率会增大。适用于稀疏数据的训练。
RMSProp: 作为AdaGrad的改进，RMSProp引入了衰减系数，使得更新过程中对近期梯度的影响更大，解决了AdaGrad在后期学习率过小的问题。
Adam: 结合了动量法和RMSProp的优点，既能自适应调整学习率，又考虑了梯度的动量效应，是目前最常用的优化器之一。

学习率调度策略

即使采用了自适应学习率，仍然可能遇到训练中学习率不合适的情况。学习率调度策略通过动态调整学习率来应对这些问题，常见的调度策略包括学习率衰减和预热策略。学习率衰减可以有效防止在训练后期出现学习率过大引起的震荡，而预热策略则允许在训练初期使用较小的学习率，以收集足够的梯度信息后再逐渐增大学习率，从而提高训练效果。

《深度学习详解》笔记 - 3.6 分类

摘要

分类与回归是深度学习中两类常见的问题。Task2.2 详细探讨了分类问题及其与回归的关系，介绍了带有softmax函数的分类方法，并深入探讨了分类损失函数，如均方误差和交叉熵的选择及其对优化过程的影响。

分类与回归的关系

回归问题是输入一个向量

，输出

y_hat

，目标是使

y_hat

尽可能接近标签

。在分类问题中，同样输入

，但输出的

y_hat

是一个标量，其值与正确类别的编号越接近越好。然而，用数字表示类别会有一些问题，特别是当类之间没有特定关系时。这种情况下，独热向量是更常见的表示方法，能够避免类之间距离的误解。

带有softmax的分类

在分类问题中，输入

经过一系列变换后得到

y_hat

，为了将

y_hat

转换为概率分布，通常会使用softmax函数。softmax的作用是将任意实数值转换为0到1之间的概率值，并且这些概率值的和为1。对于二分类问题，softmax等价于sigmoid函数。

分类损失

分类损失用于衡量预测结果与实际标签之间的差异。常见的损失函数包括均方误差MSE和交叉熵。均方误差在损失大的区域通常较为平坦，梯度较小，不利于优化。相比之下，交叉熵在分类问题中更为常用，因为它能更有效地引导模型参数的更新，使优化过程更加顺利。

Task2.3（实践任务）：HW3(CNN)卷积神经网络-图像分类

我才知道pip install sklearn是错误的，应该pip install scikit-learn......

标签：人工智能学习笔记

本文转载自: https://blog.csdn.net/ybai34/article/details/141760334
版权归原作者 ybai34 所有，如有侵权，请联系我们删除。

Datawhale X 李宏毅苹果书AI夏令营 Task 2 学习笔记

《深度学习详解》笔记 - 3.3 自适应学习率

摘要

自适应学习率的概念

主要自适应学习率方法

学习率调度策略

《深度学习详解》笔记 - 3.6 分类

摘要

分类与回归的关系

带有softmax的分类

分类损失

Task2.3（实践任务）：HW3(CNN)卷积神经网络-图像分类

发表评论

“Datawhale X 李宏毅苹果书AI夏令营 Task 2 学习笔记”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航