损失函数
损失函数(Loss function)又叫做误差函数,用来衡量算法的运行情况.
估量模型的预测值 f (x)与真实值 Y 的不一致程度,是一个非负实值函数,通常使用来表
示,损失函数越小,模型的鲁棒性就越好。
损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。
常见的损失函数
损失函数用来评价预测值和真实值不一样的程度。通常损失函数越好,模型的性能也越好。
损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和
实际结果的差别,结构风险损失函数是在经验风险损失函数上加上正则项。
(1)0-1 损失函数
(2)绝对值损失函数
(3)平方损失函数
(4)log 对数损失函数(常用于逻辑回归)
(5)指数损失函数(例 AdaBoost)
(6)Hinge 损失函数
逻辑回归为什么使用对数损失函数
对数损失函数与极大似然估计的对数似然函数本质上是相同的。所以逻辑回归直接采用对数损失函数。
机器学习中梯度下降法
在机器学习中,梯度下降法主要有随机梯度下降法和批量梯度下降法。
调整梯度下降法的几种方式
算法迭代步长的选择;参数的初始值选择;标准化处理。
随机梯度和批量梯度区别
随机梯度下降法、批量梯度下降法相对来说都比较极端,简单对比如下:
批量梯度下降:
a)采用所有数据来梯度下降。
b) 批量梯度下降法在样本量很大的时候,训练速度慢。
随机梯度下降:
a) 随机梯度下降用一个样本来梯度下降。
b) 训练速度很快。
c) 随机梯度下降法仅仅用一个样本决定梯度方向,导致解有可能不是最优。 d) 收敛速度来说,随机梯度下降法一次迭代一个样本,导致迭代方向变化很大,不能很快的收敛到局部最优解。
小批量(mini-batch ) 梯度下降法
**对比随机梯度下降(SGD)、批量梯度下降(BGD)、小批量梯度下降(mini-batch GD)、和online GD **
Online GD 于 mini-batch GD/SGD 的区别在于,所有训练数据只用一次,然后丢弃。这样做的优点在于可预测最终模型的变化趋势。
版权归原作者 满满myno 所有, 如有侵权,请联系我们删除。