一.机器学习简单介绍:
机器学习就是让机器具备找一个函数的能力
机器学习有不同的类别:
回归:假设要找的函数的输出是一个数值,一个标量,这种机器学习的任务称为回归
分类:分类任务要让机器做选择题,分类不一定只有两个选项,也可以有多个选项
结构化学习:机器不只是要做选择题或输出一个数字,而是产生一个有结构的物体,比如让机器画一张图,写一篇文章
二 .机器学习的三个步骤:
1.建立模型
模型:带有未知的参数的函数称为模型
模型在机器学习里面,就是一个带有未知的参数的函数
特征便是一个函数的自变量, 在统计学中也称为解释变量;我们要输出的是因变量,在统计学中也称为被解释变量
例如:y = b + wx
特征x 是这个函数里面已知的,它是来自于后台的信息
w 跟 b 是未知的参数。w 称为权重,b 称为偏置。它是准备要通过数据去找出来的,w 跟 b 是未知的,只是隐约地猜测,猜测往往来自于对这个问题本质上的了解,即领域知识。机器学习就需要一些领域知识。这只是一个猜测,它不一定是对的,等一下回头会再来修正这个猜测
2.定义损失
损失也是一个函数,这个函数的输入是模型里面的参数,如模型是 y = b + wx, b 跟 w 是未知的,损失是函数 L(b, w),其输入是模型参数 b 跟w
损失函数输出的值代表这笔数值的好还是不好,即可以用来评价我们的模型好与不好
真实的值称为标签
我们可以计算一下估测的值 yˆ 跟真实值 y 的差距 e。计算差距其实不只一种方式,比如取绝对值:
e1 = |y1− yˆ|
e2 = |y2− yˆ|
......
我们可以算出每一组数据预测的误差,每一组的误差都可以得到 e,接下来把每一组的误差,通通加起来取得平均,得到损失L
其中,N 代表训验数据的个数,L 是每一笔训练数据的误差 e 相加平均以后的结果。L 越大,代表现在这一组参数越不好,L 越小,代表现在这一组参数越好
计算 y 与 yˆ 之间绝对值的差距,称为平均绝对误差。e =|yˆ − y|
如果算 y 与 yˆ 之间平方的差距,则称为均方误差。e = (yˆ− y)2
有一些任务中 y 和 yˆ 都是概率分布,这个时候可能会选择交叉熵
我们可以调整不同的 w 和不同的 b,求取各种w 和各种 b,组合起来以后,我们可以为不同的 w 跟 b 的组合,都去计算它的损失,就可以画出如图所示的等高线图。在这个等高线图上面,越偏红色系,代表计算出来的损失越大,就代表这一组 w 跟 b 越差。如果越偏蓝色系,就代表损失越小,就代表这一组 w 跟 b 越好,拿这一组 w 跟 b,放到函数里面,预测会越精准。
如图所示的等高线图,就是试了不同的参数,计算它的损失,画出来的等高线图称为误差表面
常见的回归损失有:
3. 求解最优参数
求解最优参数的过程,就是一个最优化的过程,常用的方法有梯度下降法,Adam, RMSProp等,这里简单介绍梯度下降法:
梯度下降是一个用于优化的算法,它帮助我们找到可以使某个函数最小化的参数。在机器学习中,尤其是在训练模型时,梯度下降用来调整模型的参数,以便使预测结果与实际结果之间的误差尽可能小
其步骤如下:
影响步伐的大小:
其一是这个地方的斜率,斜率大步伐就跨大一点,斜率小步伐就跨小一点
另外,学习率η 也会影响步伐大小,学习率是自己设定的,如果 η 设大一点,每次参数更新就会量大,学习可能就比较快。如果 η 设小一点,参数更新就很慢,每次只会改变一点点参数的数值
这种在做机器学习,需要自己设定,不是机器自己找出来的,称为超参数
为了更好地理解梯度下降,我们可以把它想象成在山上寻找最低点的过程:
假设你站在山上,你的目标是找到山谷的最低点。山的形状对应着我们要最小化的损失函数,山的每个位置(高度)都代表当前参数下的损失值
①选择起点:你从山上的某个随机位置开始,这个位置就是你的初始参数
②计算斜率(梯度):你环顾四周,估计一下哪边的坡度更陡。这相当于计算损失函数在当前参数值下的斜率(梯度)
如果坡度是负的,说明向前走会让你往下走(减少损失)
如果坡度是正的,说明向后走更好
③调整步伐:根据坡度的大小和方向,你决定迈出多大的一步。步伐的大小取决于学习率,如果学习率大,你走的步子会大,可能会很快走到一个比较低的地方;如果学习率小,你走的步子会小,虽然更稳,但可能会很慢
④继续调整:你不断重复这个过程:计算斜率,调整步伐,向坡度更低的方向移动,直到最终到达一个位置,那里坡度几乎为零,这个位置就是一个局部最低点(损失函数最小化的点)
李宏毅老师说,局部最小值是一个假问题,个人理解有两点:
1.在实际应用中,鞍点是更常见的情况,局部最小值并不常见。
2.在复杂的非凸函数中,我们很难找到全局最小值,当我们遇到局部最小值时,此时loss往往已经比较小,对于预测来说,结果已经可以接受了。
三:实际应用:
版权归原作者 y620502 所有, 如有侵权,请联系我们删除。