《深度学习详解》笔记 - 3.3 自适应学习率
摘要
自适应学习率是优化深度学习模型过程中重要的技术,它能根据梯度的变化自动调整学习率,从而提高训练效率。Task 2总结了自适应学习率的概念、主要方法(包括AdaGrad、RMSProp和Adam),并探讨了学习率调度策略的应用,以解决训练中的各种问题,如梯度震荡和训练停滞。
自适应学习率的概念
在深度学习模型的训练过程中,学习率的选择至关重要。学习率过大可能导致参数在误差表面上震荡,难以收敛到最优解;学习率过小则可能导致训练时间过长,甚至陷入局部最小值。自适应学习率方法旨在根据梯度的变化,自动调整每个参数的学习率,从而在不同的训练阶段或不同的参数上采用最合适的步伐。
主要自适应学习率方法
- AdaGrad: 通过对过去梯度的累积来调整学习率,对于梯度较大的方向,学习率会减小;对于梯度较小的方向,学习率会增大。适用于稀疏数据的训练。
- RMSProp: 作为AdaGrad的改进,RMSProp引入了衰减系数,使得更新过程中对近期梯度的影响更大,解决了AdaGrad在后期学习率过小的问题。
- Adam: 结合了动量法和RMSProp的优点,既能自适应调整学习率,又考虑了梯度的动量效应,是目前最常用的优化器之一。
学习率调度策略
即使采用了自适应学习率,仍然可能遇到训练中学习率不合适的情况。学习率调度策略通过动态调整学习率来应对这些问题,常见的调度策略包括学习率衰减和预热策略。学习率衰减可以有效防止在训练后期出现学习率过大引起的震荡,而预热策略则允许在训练初期使用较小的学习率,以收集足够的梯度信息后再逐渐增大学习率,从而提高训练效果。
《深度学习详解》笔记 - 3.6 分类
摘要
分类与回归是深度学习中两类常见的问题。Task2.2 详细探讨了分类问题及其与回归的关系,介绍了带有softmax函数的分类方法,并深入探讨了分类损失函数,如均方误差和交叉熵的选择及其对优化过程的影响。
分类与回归的关系
回归问题是输入一个向量
x
,输出
y_hat
,目标是使
y_hat
尽可能接近标签
y
。在分类问题中,同样输入
x
,但输出的
y_hat
是一个标量,其值与正确类别的编号越接近越好。然而,用数字表示类别会有一些问题,特别是当类之间没有特定关系时。这种情况下,独热向量是更常见的表示方法,能够避免类之间距离的误解。
带有softmax的分类
在分类问题中,输入
x
经过一系列变换后得到
y_hat
,为了将
y_hat
转换为概率分布,通常会使用softmax函数。softmax的作用是将任意实数值转换为0到1之间的概率值,并且这些概率值的和为1。对于二分类问题,softmax等价于sigmoid函数。
分类损失
分类损失用于衡量预测结果与实际标签之间的差异。常见的损失函数包括均方误差MSE和交叉熵。均方误差在损失大的区域通常较为平坦,梯度较小,不利于优化。相比之下,交叉熵在分类问题中更为常用,因为它能更有效地引导模型参数的更新,使优化过程更加顺利。
Task2.3(实践任务):HW3(CNN)卷积神经网络-图像分类
我才知道pip install sklearn是错误的,应该pip install scikit-learn......
版权归原作者 ybai34 所有, 如有侵权,请联系我们删除。