机器学习——训练模型
线性回归
y
^
=
h
Θ
(
x
)
=
Θ
∗
x
其中
Θ
是模型的参数向量,其中包括偏置项
Θ
0
和特征权重
Θ
1
至
Θ
n
x
是实例的特征向量,包括从
x
0
至
x
n
,
x
0
始终为
0
Θ
∗
x
是向量
Θ
与
x
点积
h
Θ
是假设函数,使用模型参数
Θ
\widehat{y} = h_{\Theta}(x) = \Theta*x \\其中\Theta是模型的参数向量,其中包括偏置项\Theta_0和特征权重\Theta_1至\Theta_n \\x是实例的特征向量,包括从x_0至x_n,x_0始终为0 \\ \Theta*x是向量\Theta与x点积 \\h_{\Theta}是假设函数,使用模型参数\Theta
y=hΘ(x)=Θ∗x其中Θ是模型的参数向量,其中包括偏置项Θ0和特征权重Θ1至Θnx是实例的特征向量,包括从x0至xn,x0始终为0Θ∗x是向量Θ与x点积hΘ是假设函数,使用模型参数Θ
线性回归模型的MSE成本函数
M
S
E
=
(
X
,
h
Θ
)
=
1
/
m
∑
i
=
1
m
(
Θ
T
x
(
i
)
−
y
(
I
)
)
2
MSE = (X,h_{\Theta}) = 1/m\sum_{i = 1}^{m}(\Theta^Tx^{(i)}-y^{(I)})^2
MSE=(X,hΘ)=1/mi=1∑m(ΘTx(i)−y(I))2
标准方程
Θ
^
=
(
X
T
X
)
−
1
X
T
y
方程中
Θ
^
是使成本函数最小的
Θ
值
y
是包括
y
(
1
)
到
y
(
m
)
的目标值向量
\widehat{\Theta}=(X^TX)^{-1}X^Ty \\方程中\widehat{\Theta}是使成本函数最小的\Theta值 \\y是包括y^{(1)}到y^{(m)}的目标值向量
Θ=(XTX)−1XTy方程中Θ是使成本函数最小的Θ值y是包括y(1)到y(m)的目标值向量
梯度下降
批量梯度下降
$$
成本函数的偏导数:
\ \frac{ \partial MSE(\theta)}{\partial\theta_j} = 2/m\sum_{i = 1}{m}(\ThetaTx{(i)-y{i}})x_{j}^{(i)}
$$
梯度向量:
∇
Θ
M
S
E
(
Θ
)
=
2
/
m
X
T
(
X
Θ
−
y
)
梯度向量: \nabla_{\Theta}MSE(\Theta) = 2/mX^T(X\Theta-y)
梯度向量:∇ΘMSE(Θ)=2/mXT(XΘ−y)
梯度下降步骤:
Θ
下一步
=
Θ
−
η
∇
Θ
M
S
E
(
Θ
)
(
η
为学习率
)
梯度下降步骤:\Theta^{下一步} = \Theta-\eta\nabla_{\Theta}MSE(\Theta)\ \ \ \ \ (\eta为学习率)
梯度下降步骤:Θ下一步=Θ−η∇ΘMSE(Θ) (η为学习率)
eta =0.1
n_iteration =1000#迭代次数
m =100
theta = np.random.randn(2,1)for n inrange(n_iteration):
gradienters =2/m*x_b.T.dot(x_b.dot(theta)-y)#偏导计算
theta = theta-eta*gradienters #更改theta
随机梯度下降
'''随机梯度下降'''
n_epochs =50#向前或向后迭代次数
t0,t1 =5,50#学习步长超参数deflearning_schedule(t):#计算步长return t0/(t+t1)#步长逐渐减小
theta = np.random.randn(2,1)for n inrange(n_epochs):for i inrange(m):
random_index = np.random.randint(m)
xi = x_b[random_index:random_index+1]
yi = y[random_index:random_index+1]
gradienters =2*xi.T.dot(xi.dot(theta)-yi)
eta = learning_schedule(n*m+i)
theta = theta-eta*gradienters
sklearn实现随机梯度下降
sgd_reg = SGDRegressor(max_iter=1000,tol =1e-3,penalty=None,eta0=0.1)
sgd_reg.fit(x,y.ravel())print(sgd_reg.intercept_,sgd_reg.coef_)
小批量梯度下降
'''小批量梯度下降'''
theta_path_mgd =[]
n_iterations =50
minibatch_size =20
np.random.seed(42)
theta = np.random.randn(2,1)# random initialization
t0, t1 =200,1000deflearning_schedule(t):return t0 /(t + t1)
t =0for epoch inrange(n_iterations):
shuffled_indices = np.random.permutation(m)
x_b_shuffled = x_b[shuffled_indices]
y_shuffled = y[shuffled_indices]for i inrange(0, m, minibatch_size):
t +=1
xi = x_b_shuffled[i:i+minibatch_size]
yi = y_shuffled[i:i+minibatch_size]
gradients =2/minibatch_size * xi.T.dot(xi.dot(theta)- yi)
eta = learning_schedule(t)
theta = theta - eta * gradients
theta_path_mgd.append(theta)
多项式回归
'''多项式回归'''
m =100
x =6*np.random.rand(m,1)-3
y =0.5*x**2+x+2+np.random.randn(m,1)
poly_features = PolynomialFeatures(degree=2,include_bias=False)#聚类特征
x_poly = poly_features.fit_transform(x)
lin_reg = LinearRegression()
lin_reg.fit(x_poly,y)#画图
X_new=np.linspace(-3,3,100).reshape(100,1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)
plt.plot(x, y,"b.")
plt.plot(X_new, y_new,"r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([-3,3,0,10])
plt.show()
PolynomialFeatures还可以将特征的所有组合添加到给定的多项式阶数
正规化线性模型
岭回归
成本函数
J
(
Θ
)
=
M
S
E
(
Θ
)
+
α
1
2
∑
i
=
1
n
Θ
i
2
超参数
α
控制要对模型进行正规化的程度。如果
α
=
0
,则岭回归仅是线性回归。
如果
α
非常大,则所有权重最终都非常接近于零,结果是一条经过数据均值的平线
J(\Theta) = MSE(\Theta)+\alpha\frac{1}{2}\sum_{i=1}^{n}\Theta_i^2 \\超参数\alpha控制要对模型进行正规化的程度。如果\alpha=0,则岭回归仅是线性回归。 \\如果\alpha非常大,则所有权重最终都非常接近于零,结果是一条经过数据均值的平线
J(Θ)=MSE(Θ)+α21i=1∑nΘi2超参数α控制要对模型进行正规化的程度。如果α=0,则岭回归仅是线性回归。如果α非常大,则所有权重最终都非常接近于零,结果是一条经过数据均值的平线
闭式解的岭回归:
Θ
^
=
(
X
T
X
+
α
A
)
−
1
X
T
y
\widehat{\Theta} = (X^TX+\alpha A)^{-1}X^Ty
Θ=(XTX+αA)−1XTy
from sklearn.linear_model import Ridge
np.random.seed(42)
m =20
X =3* np.random.rand(m,1)
y =1+0.5* X + np.random.randn(m,1)/1.5
X_new = np.linspace(0,3,100).reshape(100,1)
ridge_reg = Ridge(alpha=1, solver="cholesky", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
ridge_reg = Ridge(alpha=1, solver="sag", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
Lasso回归
最小绝对收敛和选择算子回归(Least Absolute Shrinkage and Selection Operator Regression)
成本函数:
J
(
Θ
)
=
M
S
E
(
Θ
)
+
α
∑
i
=
1
n
∣
Θ
i
∣
J(\Theta) = MSE(\Theta)+\alpha\sum_{i=1}^{n}|\Theta_i|
J(Θ)=MSE(Θ)+αi=1∑n∣Θi∣
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jufNfNa1-1658889211621)()]
Lasso回归子梯度向量:
$$
g(\Theta,J) = \nabla_{\Theta}MSE(\Theta)+\alpha\left|
\begin{matrix}
sin(\Theta_1)
sin(\Theta_2)
\vdots
sin(\Theta_n)
\end{matrix}
\right|\ \ \ 其中sign(\Theta_i) =
\begin{cases}
-1\ 如果\Theta_i<0
0\ 如果\Theta_i = 0
+1\ 如果\Theta_i>0
\end{cases}
$$
from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
lasso_reg.predict([[1.5]])
弹性网络
from sklearn.linear_model import ElasticNet
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)
elastic_net.fit(X, y)
elastic_net.predict([[1.5]])
提前停止
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GFuvg0wm-1658889211622)()]
np.random.seed(42)
m =100
x =6* np.random.rand(m,1)-3
y =2+ x +0.5* x**2+ np.random.randn(m,1)
x_train, x_val, y_train, y_val = train_test_split(x[:50], y[:50].ravel(), test_size=0.5, random_state=10)
poly_scaler = Pipeline([('poly_features',PolynomialFeatures(degree=90,include_bias=False)),('std_scaler',StandardScaler())])
x_train_poly_scaled = poly_scaler.fit_transform(x_train)
x_val_poly_scaled = poly_scaler.transform(x_val)
sgd_reg = SGDRegressor(max_iter=1,tol=-np.infty,warm_start=True,penalty=None,learning_rate='constant',eta0=0.0005)
minimum_val_error =float('inf')
best_epoch =None
best_model =Nonefor epoch inrange(1000):
sgd_reg.fit(x_train_poly_scaled,y_train)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
val_error = mean_squared_error(y_val, y_val_predict)if val_error < minimum_val_error:
minimum_val_error = val_error
best_epoch = epoch
best_model = deepcopy(sgd_reg)#画图
sgd_reg = SGDRegressor(max_iter=1, tol=-np.infty, warm_start=True,
penalty=None, learning_rate="constant", eta0=0.0005, random_state=42)
n_epochs =500
train_errors, val_errors =[],[]for epoch inrange(n_epochs):
sgd_reg.fit(x_train_poly_scaled, y_train)
y_train_predict = sgd_reg.predict(x_train_poly_scaled)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
train_errors.append(mean_squared_error(y_train, y_train_predict))
val_errors.append(mean_squared_error(y_val, y_val_predict))
best_epoch = np.argmin(val_errors)
best_val_rmse = np.sqrt(val_errors[best_epoch])
plt.annotate('Best model',
xy=(best_epoch, best_val_rmse),
xytext=(best_epoch, best_val_rmse +1),
ha="center",
arrowprops=dict(facecolor='black', shrink=0.05),
fontsize=16,)
best_val_rmse -=0.03# just to make the graph look better
plt.plot([0, n_epochs],[best_val_rmse, best_val_rmse],"k:", linewidth=2)
plt.plot(np.sqrt(val_errors),"b-", linewidth=3, label="Validation set")
plt.plot(np.sqrt(train_errors),"r--", linewidth=2, label="Training set")
plt.legend(loc="upper right", fontsize=14)
plt.xlabel("Epoch", fontsize=14)
plt.ylabel("RMSE", fontsize=14)
plt.show()
问题1、2与4的答案
提前终止的目的是为了防止过拟合,如果我们只要返回使验证误差最低的参数,就可以获得验证集误差更低的模型。
图1.学习曲线(横轴为训练轮次,纵轴为负的对数似然)
对图1的注释:
蓝色曲线表示训练集上的loss随着训练轮次的变化而变化的情况。
红色曲线表示测试集上的loss随着训练轮次的变化而变化的情况。
注释:红色曲线是每训练完一个epoch后就测试一次所得到的曲线。
从图中可以看出,测试误差在前几个epoch中逐渐减小,但是训练到某个epoch后,测试误差又有了小幅度的增大。这说明此时发生了过拟合。
发生过拟合是我们所不愿意看见的,我们可以利用提前终止(early stopping)
来防止过拟合的发生。
提前终止是指:在测试误差开始上升之前,就停止训练,即使此时训练尚未收敛(即训练误差未达到最小值)。
首先我们要保存好现在的模型(网络结构和权值),训练num_batch次(即一个epoch),得到新的模型。将测试集作为新模型的输入,进行测试。如果我们发现测试误差比上次得到的测试误差大,我们并不会马上终止测试,而是再继续进行几个epoch的训练与测试,如果测试误差依旧没有减小,那么我们就认为该试验在上一次达到最低测试误差时停下来。具体算法可参见《deep learning》
问题3的答案
该问题是为了回答为什么提前停止可以起到正则化的作用。
首先,我们对损失函数在ω∗ω∗的邻域内用Taylor展开式展开(只展开至二次),则有
J′(ω)=J(ω∗)+1/2(ω−ω∗)TH(ω−ω∗)J′(ω)=J(ω∗)+1/2(ω−ω∗)TH(ω−ω∗)
其中H是Hessian矩阵。这里之所以没有一阶导数的信息,是因为 ω∗ω∗是最优解,在 ω∗ω∗的邻域中,可以近似地认为梯度为0。
对 J′(ω)J′(ω)求梯度,得到
∇ωJ′(ω)=H(ω−ω∗)∇ωJ′(ω)=H(ω−ω∗)
我们将参数向量 ω(0)ω(0)初始化为原点0。由梯度下降法,可以得到如下公式:
ω(τ)=ω(τ–1)−α∇ωĴ (ω(τ−1))ω(τ)=ω(τ–1)−α∇ωĴ(ω(τ−1))
ω(τ)=ω(τ−1)−αH(ω(τ−1)−ω∗)ω(τ)=ω(τ−1)−αH(ω(τ−1)−ω∗)
ω(τ)−ω∗=(I−αH)(ω(τ−1)−ω∗)ω(τ)−ω∗=(I−αH)(ω(τ−1)−ω∗)
将H进行特征值分解: H=QTπQH=QTπQ,其中Q是标准正交矩阵,π是对角矩阵。
那么
ω(τ)−ω∗=QT(I−απ)Q(ω(τ−1)−ω∗)ω(τ)−ω∗=QT(I−απ)Q(ω(τ−1)−ω∗)
Q(ω((τ))−ω∗)=(I−απ)Q(ω((τ−1))−ω∗)Q(ω((τ))−ω∗)=(I−απ)Q(ω((τ−1))−ω∗)
其中 αα足够小以保证|1−απi|<1|1−απi|<1。
Qω(τ)=(I−(I−απ)τ)Qω∗Qω(τ)=(I−(I−απ)τ)Qω∗
在分析L2正则项的时候,Qω̃ =(I−(π+εI)−1ε)Qω∗Qω̃=(I−(π+εI)−1ε)Qω∗
由上面两个式子比较可知,如果下式成立:
(π+εI)−1ε=(I−απ)τ(π+εI)−1ε=(I−απ)τ
则L2正则化和提前终止可以认为是等价的。进一步,有
ε/(πi+ε)=(1−απi)τε/(πi+ε)=(1−απi)τ
两侧取对数,可知:
log(ε/(πi+ε))=τlog(1−απi)log(ε/(πi+ε))=τlog(1−απi)
作一个简单的近似:
−log(1+πi/ε)=τlog(1−απi)−log(1+πi/ε)=τlog(1−απi)
−πi/ε=−ατπi−πi/ε=−ατπi
(比较Taylor展开式的第一个非常数项,Taylor展开式是唯一的)
从而
τ=1/αετ=1/αε
以上的推导说明了提前终止可以起到正则化的作用。
逻辑回归
估计概率
逻辑回归模型的估计概率
p
^
=
h
Θ
(
x
)
=
σ
(
x
T
Θ
)
逻辑记为
σ
(
.
)
,
是一个
s
i
g
m
o
i
d
函数(即
S
型函数),输出一个介于
0
和
1
之间的数字
\widehat{p} = h_{\Theta}(x) = \sigma(x^T\Theta)\\ 逻辑记为\sigma(.),是一个sigmoid函数(即S型函数),输出一个介于0和1之间的数字
p=hΘ(x)=σ(xTΘ)逻辑记为σ(.),是一个sigmoid函数(即S型函数),输出一个介于0和1之间的数字
逻辑函数
σ
(
t
)
=
1
1
+
e
x
p
(
−
t
)
\sigma(t) = \frac{1}{1+exp(-t)}
σ(t)=1+exp(−t)1
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AhRbsEOJ-1658889211623)()]
逻辑回归模型预测
y
^
=
{
0
,
如果
p
^
<
0.5
1
,
如果
p
^
>
=
0.5
注意,当
t
<
0
时,
σ
(
t
)
<
0.5
;
t
>
0
时,
σ
(
t
)
>
=
0.5.
如果
x
T
Θ
是正类,逻辑回归模型预测结果是
1
如果是负类,则预测为
0
\widehat{y} = \begin{cases} 0,如果\widehat{p}<0.5\\ 1,如果\widehat{p}>=0.5 \end{cases}\\ 注意,当t<0时,\sigma(t)<0.5;t>0时,\sigma(t)>=0.5.\\如果x^T\Theta是正类,逻辑回归模型预测结果是1\\如果是负类,则预测为0
y={0,如果p<0.51,如果p>=0.5注意,当t<0时,σ(t)<0.5;t>0时,σ(t)>=0.5.如果xTΘ是正类,逻辑回归模型预测结果是1如果是负类,则预测为0
训练和成本函数
单个训练实例的成本函数
c
(
Θ
)
=
{
−
l
o
g
(
p
^
)
,
如果
y
=
1
−
l
o
g
(
1
−
p
^
)
,
如果
y
=
0
c(\Theta) = \begin{cases} -log(\widehat{p}),\ \ \ \ \ \ 如果y = 1\\ -log(1-\widehat{p}),如果y = 0 \end{cases}
c(Θ)={−log(p), 如果y=1−log(1−p),如果y=0
逻辑回归成本函数(对数损失)
J
(
Θ
)
=
−
1
m
∑
i
=
1
m
[
l
o
g
(
p
^
(
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
p
^
(
i
)
)
)
]
J(\Theta) = -\frac{1}{m}\sum_{i=1}^{m}[log(\widehat{p}^{(i)}+(1-y^{i})log(1-\widehat{p}^{(i)}))]
J(Θ)=−m1i=1∑m[log(p(i)+(1−yi)log(1−p(i)))]
逻辑成本函数偏导数
∂
∂
Θ
j
J
(
Θ
)
=
1
m
∑
i
=
1
m
(
σ
(
Θ
T
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
\frac{\partial}{\partial\Theta_j}J(\Theta) = \frac{1}{m}\sum_{i=1}^{m}(\sigma(\Theta^Tx^{(i)})-y^{(i)})x_j^{(i)}
∂Θj∂J(Θ)=m1i=1∑m(σ(ΘTx(i))−y(i))xj(i)
决策边界
'''决策边界'''
iris = datasets.load_iris()
x = iris['data'][:,3:]
y =(iris['target']==2).astype(np.int_)
log_reg = LogisticRegression()
log_reg.fit(x,y)#画图展示模型估算出的概率
x_new = np.linspace(0,3,1000).reshape(-1,1)
y_proba = log_reg.predict_proba(x_new)
plt.plot(x_new,y_proba[:,1],'g-',label ='Iris virginica')
plt.plot(x_new,y_proba[:,0],'b--',label ='Not Iris virginica')
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CfEOzzhj-1658889211624)()]
Softmax回归
类k的Softmax分数
s
k
(
x
)
=
x
T
Θ
(
k
)
s_k(x) = x^T\Theta^{(k)}
sk(x)=xTΘ(k)
Softmax函数
p
^
k
=
σ
(
s
(
x
)
)
k
=
e
x
p
(
s
k
(
x
)
)
∑
j
=
1
k
e
x
p
(
s
j
(
x
)
)
此等式中
K
是类数
s
(
x
)
是一个向量,其中包括实例
x
的每个类的分数
σ
(
s
(
x
)
)
k
是实例
x
属于类
k
的估计概率,给定该实例每个类的分数
\widehat{p}_k = \sigma(s(x))_k = \frac{exp(s_k(x))}{\sum_{j=1}^{k}exp(s_j(x))}\\ 此等式中\\K是类数\\s(x)是一个向量,其中包括实例x的每个类的分数\\\sigma(s(x))_k是实例x属于类k的 估计概率,给定该实例每个类的分数
pk=σ(s(x))k=∑j=1kexp(sj(x))exp(sk(x))此等式中K是类数s(x)是一个向量,其中包括实例x的每个类的分数σ(s(x))k是实例x属于类k的估计概率,给定该实例每个类的分数
Softmax回归分类预测
y
^
=
a
r
g
m
a
x
σ
(
s
(
x
)
)
k
=
a
r
g
m
a
x
s
k
(
x
)
=
a
r
g
m
a
x
(
(
Θ
k
)
T
x
)
\widehat{y} = argmax\sigma(s(x))_k = argmaxs_k(x) = argmax((\Theta^{k})^Tx)
y=argmaxσ(s(x))k=argmaxsk(x)=argmax((Θk)Tx)
交叉熵成本函数
J
(
Θ
)
=
−
1
m
∑
i
=
1
m
∑
k
=
1
k
y
k
(
i
)
l
o
g
(
p
^
l
(
i
)
)
在此等式中
y
k
(
i
)
是属于类
k
的第
i
个实例的目标概率。一般而言等于
1
或
0
,具体取决于实例是否属于该
J(\Theta) = -\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{k}y_k^{(i)}log(\widehat{p}_l^{(i)}) \\在此等式中y_k^{(i)}是属于类k的第i个实例的目标概率。一般而言等于1或0,具体取决于实例是否属于该
J(Θ)=−m1i=1∑mk=1∑kyk(i)log(pl(i))在此等式中yk(i)是属于类k的第i个实例的目标概率。一般而言等于1或0,具体取决于实例是否属于该
介绍
交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。
公式
将交叉熵引入计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。实例表明,该方法简洁有效.易于计算机自适应实现。交叉熵不失为计算语言学消岐的一种较为有效的工具。
在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下:
假设现在有一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布。假如,按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:
H§=
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYioVdqB-1658889211625)(https://bkimg.cdn.bcebos.com/formula/d8600ed8a168b3ccde14700c4edba145.svg)]
但是,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是:
H(p,q)=
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lk1m7IsR-1658889211626)(https://bkimg.cdn.bcebos.com/formula/4f4bd894f88b051dbcb362809a886c10.svg)]
此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下:
对于离散变量采用以下的方式计算:H(p,q)=
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CyFkN1Yr-1658889211626)(https://bkimg.cdn.bcebos.com/formula/39dffa5dea6b891ae6a322110c04ea1a.svg)]
对于连续变量采用以下的方式计算:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l9Gu7e8Y-1658889211626)(https://bkimg.cdn.bcebos.com/formula/86749cf53f17a226a4e45c56664cae10.svg)]
类k的交叉熵梯度向量
∇
Θ
(
k
)
J
(
Θ
)
=
1
m
∑
i
=
1
m
(
p
^
k
(
i
)
−
y
k
(
i
)
)
x
(
i
)
\nabla_{\Theta(k)}J(\Theta) = \frac{1}{m}\sum_{i=1}^{m}(\widehat{p}_k^{(i)}-y_k^{(i)})x^{(i)}
∇Θ(k)J(Θ)=m1i=1∑m(pk(i)−yk(i))x(i)
'''Softmax回归'''
iris = datasets.load_iris()
X= iris["data"][:,(2,3)]# petal length, petal width
y = iris["target"]
softmax_reg = LogisticRegression(multi_class="multinomial",solver="lbfgs", C=10, random_state=42)
softmax_reg.fit(X, y)
x0, x1 = np.meshgrid(
np.linspace(0,8,500).reshape(-1,1),
np.linspace(0,3.5,200).reshape(-1,1),)
X_new = np.c_[x0.ravel(), x1.ravel()]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:,1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)#画图
plt.figure(figsize=(10,4))
plt.plot(X[y==2,0], X[y==2,1],"g^", label="Iris virginica")
plt.plot(X[y==1,0], X[y==1,1],"bs", label="Iris versicolor")
plt.plot(X[y==0,0], X[y==0,1],"yo", label="Iris setosa")from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0,7,0,3.5])
plt.show()
代码总结
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression,SGDRegressor,LogisticRegression
from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.base import clone
from sklearn.pipeline import Pipeline
from copy import deepcopy
from sklearn import datasets
x =2*np.random.rand(100,1)
y =4+3*x+np.random.randn(100,1)
x_b = np.c_[np.ones((100,1)),x]
theta_best = np.linalg.inv(x_b.T.dot(x_b)).dot(x_b.T).dot(y)
x_new = np.array([[0],[2]])
x_new_b = np.c_[np.ones((2,1)),x_new]
y_predict = x_new_b.dot(theta_best)#使用sklearn
lin_reg = LinearRegression()
lin_reg.fit(x,y)'''批量梯度下降'''
eta =0.1
n_iteration =1000#迭代次数
m =100
theta = np.random.randn(2,1)for n inrange(n_iteration):
gradienters =2/m*x_b.T.dot(x_b.dot(theta)-y)#偏导计算
theta = theta-eta*gradienters #更改theta'''随机梯度下降'''
n_epochs =50#向前或向后迭代次数
t0,t1 =5,50#学习步长超参数deflearning_schedule(t):#计算步长return t0/(t+t1)#步长逐渐减小
theta = np.random.randn(2,1)for n inrange(n_epochs):for i inrange(m):
random_index = np.random.randint(m)
xi = x_b[random_index:random_index+1]
yi = y[random_index:random_index+1]
gradienters =2*xi.T.dot(xi.dot(theta)-yi)
eta = learning_schedule(n*m+i)
theta = theta-eta*gradienters
sgd_reg = SGDRegressor(max_iter=1000,tol =1e-3,penalty=None,eta0=0.1)
sgd_reg.fit(x,y.ravel())print(sgd_reg.intercept_,sgd_reg.coef_)'''小批量梯度下降'''
theta_path_mgd =[]
n_iterations =50
minibatch_size =20
np.random.seed(42)
theta = np.random.randn(2,1)# random initialization
t0, t1 =200,1000deflearning_schedule(t):return t0 /(t + t1)
t =0for epoch inrange(n_iterations):
shuffled_indices = np.random.permutation(m)
x_b_shuffled = x_b[shuffled_indices]
y_shuffled = y[shuffled_indices]for i inrange(0, m, minibatch_size):
t +=1
xi = x_b_shuffled[i:i+minibatch_size]
yi = y_shuffled[i:i+minibatch_size]
gradients =2/minibatch_size * xi.T.dot(xi.dot(theta)- yi)
eta = learning_schedule(t)
theta = theta - eta * gradients
theta_path_mgd.append(theta)'''多项式回归'''
m =100
x =6*np.random.rand(m,1)-3
y =0.5*x**2+x+2+np.random.randn(m,1)
poly_features = PolynomialFeatures(degree=2,include_bias=False)#聚类特征
x_poly = poly_features.fit_transform(x)
lin_reg = LinearRegression()
lin_reg.fit(x_poly,y)
画图
X_new=np.linspace(-3,3,100).reshape(100,1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)
plt.plot(x, y,"b.")
plt.plot(X_new, y_new,"r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([-3,3,0,10])
plt.show()'''学习曲线'''defplot_learning_curves(model,x,y):
x_train,x_val,y_train,y_val = train_test_split(x,y,test_size=0.2)
train_erros,val_erros =[],[]for m inrange(1,len(x_train)):
model.fit(x_train[:m],y_train[:m])
y_train_pred = model.predict(x_train[:m])
y_val_pred = model.predict(x_val)
train_erros.append(mean_squared_error(y_train[:m],y_train_pred))
val_erros.append(mean_squared_error(y_val,y_val_pred))
plt.plot(np.sqrt(train_erros),'r-+',linewidth =2,label ='train')
plt.plot(np.sqrt(val_erros),'b--',linewidth =3,label ='val')
plt.show()
lin_reg = LinearRegression()
plot_learning_curves(lin_reg,x,y)'''岭回归'''
np.random.seed(42)
m =20
X =3* np.random.rand(m,1)
y =1+0.5* X + np.random.randn(m,1)/1.5
X_new = np.linspace(0,3,100).reshape(100,1)
ridge_reg = Ridge(alpha=1, solver="cholesky", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
ridge_reg = Ridge(alpha=1, solver="sag", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])'''lasso'''from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
lasso_reg.predict([[1.5]])'''提前停止'''
np.random.seed(42)
m =100
x =6* np.random.rand(m,1)-3
y =2+ x +0.5* x**2+ np.random.randn(m,1)
x_train, x_val, y_train, y_val = train_test_split(x[:50], y[:50].ravel(), test_size=0.5, random_state=10)
poly_scaler = Pipeline([('poly_features',PolynomialFeatures(degree=90,include_bias=False)),('std_scaler',StandardScaler())])
x_train_poly_scaled = poly_scaler.fit_transform(x_train)
x_val_poly_scaled = poly_scaler.transform(x_val)
sgd_reg = SGDRegressor(max_iter=1,tol=-np.infty,warm_start=True,penalty=None,learning_rate='constant',eta0=0.0005)
minimum_val_error =float('inf')
best_epoch =None
best_model =Nonefor epoch inrange(1000):
sgd_reg.fit(x_train_poly_scaled,y_train)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
val_error = mean_squared_error(y_val, y_val_predict)if val_error < minimum_val_error:
minimum_val_error = val_error
best_epoch = epoch
best_model = deepcopy(sgd_reg)#画图
sgd_reg = SGDRegressor(max_iter=1, tol=-np.infty, warm_start=True,
penalty=None, learning_rate="constant", eta0=0.0005, random_state=42)
n_epochs =500
train_errors, val_errors =[],[]for epoch inrange(n_epochs):
sgd_reg.fit(x_train_poly_scaled, y_train)
y_train_predict = sgd_reg.predict(x_train_poly_scaled)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
train_errors.append(mean_squared_error(y_train, y_train_predict))
val_errors.append(mean_squared_error(y_val, y_val_predict))
best_epoch = np.argmin(val_errors)
best_val_rmse = np.sqrt(val_errors[best_epoch])
plt.annotate('Best model',
xy=(best_epoch, best_val_rmse),
xytext=(best_epoch, best_val_rmse +1),
ha="center",
arrowprops=dict(facecolor='black', shrink=0.05),
fontsize=16,)
best_val_rmse -=0.03# just to make the graph look better
plt.plot([0, n_epochs],[best_val_rmse, best_val_rmse],"k:", linewidth=2)
plt.plot(np.sqrt(val_errors),"b-", linewidth=3, label="Validation set")
plt.plot(np.sqrt(train_errors),"r--", linewidth=2, label="Training set")
plt.legend(loc="upper right", fontsize=14)
plt.xlabel("Epoch", fontsize=14)
plt.ylabel("RMSE", fontsize=14)
plt.show()'''决策边界'''
iris = datasets.load_iris()
x = iris['data'][:,3:]
y =(iris['target']==2).astype(np.int_)
log_reg = LogisticRegression()
log_reg.fit(x,y)#画图展示模型估算出的概率
x_new = np.linspace(0,3,1000).reshape(-1,1)
y_proba = log_reg.predict_proba(x_new)
plt.plot(x_new,y_proba[:,1],'g-',label ='Iris virginica')
plt.plot(x_new,y_proba[:,0],'b--',label ='Not Iris virginica')
plt.show()'''Softmax回归'''
iris = datasets.load_iris()
X= iris["data"][:,(2,3)]# petal length, petal width
y = iris["target"]
softmax_reg = LogisticRegression(multi_class="multinomial",solver="lbfgs", C=10, random_state=42)
softmax_reg.fit(X, y)
x0, x1 = np.meshgrid(
np.linspace(0,8,500).reshape(-1,1),
np.linspace(0,3.5,200).reshape(-1,1),)
X_new = np.c_[x0.ravel(), x1.ravel()]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:,1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)
plt.figure(figsize=(10,4))
plt.plot(X[y==2,0], X[y==2,1],"g^", label="Iris virginica")
plt.plot(X[y==1,0], X[y==1,1],"bs", label="Iris versicolor")
plt.plot(X[y==0,0], X[y==0,1],"yo", label="Iris setosa")from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0,7,0,3.5])
plt.show()
]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:, 1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)
plt.figure(figsize=(10, 4))
plt.plot(X[y2, 0], X[y2, 1], “g^”, label=“Iris virginica”)
plt.plot(X[y1, 0], X[y1, 1], “bs”, label=“Iris versicolor”)
plt.plot(X[y0, 0], X[y0, 1], “yo”, label=“Iris setosa”)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap([‘#fafab0’,‘#9898ff’,‘#a0faa0’])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel(“Petal length”, fontsize=14)
plt.ylabel(“Petal width”, fontsize=14)
plt.legend(loc=“center left”, fontsize=14)
plt.axis([0, 7, 0, 3.5])
plt.show()
版权归原作者 努力学习的AI 所有, 如有侵权,请联系我们删除。