机器学习之回归算法——只需要看这一篇

1. 范数的类型

在开始之前我们先要了解范数是什么？其实在回归问题中可以把范数简单理解为距离。那么范数的类型有哪几种呢？

Lp范数： $\left \| V \right \|_{p} = \left ( \sum_{i=1}^{n}\left | V_{i} \right |^{p} \right )^{\frac{1}{p}},p\geq 1$
L1（曼哈顿范数）范数：当p=1时， $\left \| V_{1} \right \|_{1} = \sum_{i=1}^{n}\left | V_{i} \right |$ ，向量元素的绝对值之和
L2（欧几里得范数）范数：当p=2时， $\left \| V_{2} \right \| = \sqrt{\sum_{i=1}^{n}V_{i}^{2}}$ ，向量平方和的平方根
无穷范数：当p=无穷时， $\left \| V \right \|_{\propto } = max_{i}\left | V_{i} \right |$ ，向量绝对值的最大值

2. 一元线性回归

首先我们来了解什么是线性回归，线性回归说白了就是已知x（特征值）和y（目标值）来求解y关于x的线性方程： $y = ax+b$ .一元线性回归也就是说影响y值的因素只有一个，参数a是一个数字，多元线性回归也就是影响y值的因素很多，参数a不再是一个数字，而是一个矩阵参数。例如：假设幼儿园的收入（y）的多少只取决于幼儿的数量，那么这就是一元线性回归；如果假设幼儿园的收入（y）的多少不仅取决于幼儿的数量，还取决于教职工的数量和水电费，那么这就是多元线性回归。

现在我们来看一元线性回归：当数据很多时，所有的值不可能都在所求的这条直线上：

所以我们需要寻找最合适的参数a和b使所有已知数据点和这条线性方程的点的差值最小，即 $_{a,b}^{argmin}\textrm{}\left ( \hat{y}-y \right )^{2}$ ，其中 $_{a,b}^{argmin}\textrm{}$ 代表求解使得 $\left ( \hat{y}-y \right )^{2}$ 值最小的参数a,b， $\hat{y}$ 为根据x通过线性方程预测的y值，y为真实值。

这里使用差值的平方的原因是因为二次函数可以求得最值并且省去了使用绝对值（因为预测值可能比真实值大或者小）。

由于 $\left ( \hat{y}-y \right )^{2}$ 是单个值，所以为了更具有普遍性，我们将所有的差值先进行平方求和再求平均：

$L(\hat{y},y)=\frac{1}{n}\sum_{i=1}^{n}\left ( \hat{y}-y \right )^{2}$

接下来我们便可以通过计算来寻找最合适的a,b值，即 $a^{^{*}},b^{*}$ 。

$a^{*},b^{*}=_{a,b}^{argmin}\textrm{}L(a,b)=_{a,b}^{argmin}\textrm{}\frac{1}{n}\sum_{i=1}^{n}\left [ (ax_{i}+b)-y_{i} \right ]^{2}$

为了寻找 $a^{^{*}},b^{*}$ ，我们分别对a和b求导：

$\frac{\partial L(a,b)}{\partial a} = \frac{1}{n}\sum_{i=1}^{n}\frac{\partial }{\partial a}\left [ (ax_{i}+b)-y_{i} \right ]^{2} = \frac{1}{n}\sum_{i=1}^{n}\cdot 2[(ax_{i}+b)-y_{i}]\cdot x_{i} = \frac{2}{n}\sum_{i=1}^{n}(ax_{i}^{2}+bx_{i}-x_{i}y_{i}) = 2a(\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2})+2b(\frac{1}{n}\sum_{i=1}^{n}x_{i})-2(\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i})$

$\frac{\partial L(a,b)}{\partial b} = \frac{1}{n}\sum_{i=1}^{n}\frac{\partial }{\partial b}\left [ (ax_{i}+b)-y_{i} \right ]^{2} = \frac{1}{n}\sum_{i=1}^{n}\cdot 2[(ax_{i}+b)-y_{i}] = \frac{2}{n}\sum_{i=1}^{n}(ax_{i}+b-y_{i}) = 2a(\frac{1}{n}\sum_{i=1}^{n}x_{i})+2b-2(\frac{1}{n}\sum_{i=1}^{n}y_{i})$

由于算是太复杂，我们令 $\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}=S^{2}$ ， $\frac{1}{n}\sum_{i=1}^{n}x_{i} = X$ ， $\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i} = P$ ， $\frac{1}{n}\sum_{i=1}^{n}y_{i} = Y$

那么便可以得到：

$\frac{\partial L(a,b)}{\partial a} = 2mS^{2}+2bX-2P$

$\frac{\partial L(a,b)}{\partial b} = 2mX+2b-2Y$

因为 $x_{i},y_{i},n$ 都是已知的，所以 $S^{2},Y,X,P$ 都是已知的，因此求解方程组 $\frac{\partial L(a,b)}{\partial a} = 0 ; \frac{\partial L(a,b)}{\partial b} = 0$ 便可得到参数 $a^{^{*}},b^{*}$

解的 $a^{^{*}} = \frac{P-XY}{S^{2}-X^{2}} ; b^{*} = Y-a^{^{*}}X$

接下来我们便看什么是多元线性回归。

3. 多元线性回归

我们知道多元线性回归影响因素是由多个组成，那么参数不再是一个数字，而是多维矩阵。同一元线性回归一样，对均方误差方程求导找最小值，那么方程便可以写为： $f(x) = k^{T}x+b,k=[k_{1},k_{2},k_{3},......,k_{n}]$ ，为了更好地计算，我们可以将 $f(x)$ 化简一下：