0


机器学习基础备忘录

本文侧重代码实现,不讨论原理。

github图床出了一点问题,就不插图了。

文章目录

距离计算

  1. :
  2. d
  3. (
  4. x
  5. ,
  6. y
  7. )
  8. =
  9. k
  10. =
  11. 1
  12. N
  13. (
  14. x
  15. k
  16. y
  17. k
  18. )
  19. 2
  20. 欧氏距离:d(x,y)=\sqrt{\sum_{k=1}^{N}(x_k-y_k)^2}
  21. 欧氏距离:d(x,y)=k=1N​(xk​−yk​)2
  22. :
  23. d
  24. (
  25. x
  26. ,
  27. y
  28. )
  29. =
  30. k
  31. =
  32. 1
  33. N
  34. x
  35. k
  36. y
  37. k
  38. 曼哈顿距离:d(x,y)=\sum_{k=1}^N|x_k-y_k|
  39. 曼哈顿距离:d(x,y)=k=1N​∣xk​−yk​∣
  40. :
  41. d
  42. (
  43. x
  44. ,
  45. y
  46. )
  47. =
  48. max
  49. (
  50. x
  51. k
  52. y
  53. k
  54. )
  55. 切比雪夫距离:d(x,y)=\max(|x_k-y_k|)
  56. 切比雪夫距离:d(x,y)=max(∣xk​−yk​∣)
  57. :
  58. c
  59. o
  60. s
  61. θ
  62. =
  63. x
  64. 1
  65. x
  66. 2
  67. +
  68. y
  69. 1
  70. y
  71. 2
  72. x
  73. 1
  74. 2
  75. +
  76. x
  77. 2
  78. 2
  79. y
  80. 1
  81. 2
  82. +
  83. y
  84. 2
  85. 2
  86. 余弦距离:cos\theta=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+x_2^2}\sqrt{y_1^2+y_2^2}}
  87. 余弦距离:cosθ=x12​+x22​​y12​+y22​​x1x2​+y1y2​​
  1. import numpy as np
  2. dot1 = np.array([1,2])# 第一个点的坐标(1,2)
  3. dot2 = np.array([4,5])# 第二个点的坐标(4,5)
  4. d1 = np.sqrt(np.sum((dot1-dot2)**2))# 欧氏距离
  5. d2 = np.sum(np.abs(dot1-dot2))# 曼哈顿距离
  6. d3 = np.max(np.abs(dot1-dot2))# 切比雪夫距离
  7. d4 = np.dot(dot1,dot2)/ np.sqrt(np.dot(dot1,dot1)*np.dot(dot2,dot2))# 余弦距离

模型选择

留出法

将数据分为训练集和测试集,使用训练集生成模型,使用测试集检验模型准确率。

  1. # 核心代码
  2. train_test_split(data,data_lable,test_size=0.6)
  1. # 完整代码from sklearn.model_selection import train_test_split
  2. import numpy as np
  3. data = np.array([10,21,23,53,63])# 需要划分的数据
  4. data_lable =[0,1,2,3,4]# 上述数据的标签"""
  5. 训练集数据, 测试集数据, 训练集标签, 测试集标签 =
  6. train_test_split(数据列表,数据列表标签,test_size=训练集/总数)
  7. """
  8. data_train, data_test, lable_train, lable_test = train_test_split(data,data_lable,test_size=0.6)

交叉验证法

相当于多次

  1. train_test_split

操作。将数据集划分为k个大小相似的子集,每次选取其中一个子集作为测试集,其他数据作为训练集。如[10,20,30,40],我们设k=4,则生成如下4种数据集:

  1. 训练集:[10,20,30],测试集:[40]
  2. 训练集:[10,20,40],测试集:[30]
  3. 训练集:[10,30,40],测试集:[20]
  4. 训练集:[20,30,40],测试集:[10]

代码如下:

  1. # 核心代码"""
  2. data数组分成3 : KFold(n_splits=3).split(data)
  3. train_index:训练集索引 使用data[train_index]获取训练集
  4. test_index:测试集索引 使用data[test_index]获取测试集
  5. """for train_index, test_index in KFold(n_splits=3).split(data):...略...
  1. # 完整代码import numpy as np
  2. from sklearn.model_selection import KFold
  3. data = np.array([10,21,23,53,63,25])# 需要划分的数据for train_index, test_index in KFold(n_splits=3).split(data):print("————————————————————————————————")print("训练集索引:",train_index,"训练集:",data[train_index])print("测试集索引:",test_index,"测试集:",data[test_index])
  1. # 输出
  2. ————————————————————————————————
  3. 训练集索引:[2345] 训练集:[23536325]
  4. 测试集索引:[01] 测试集:[1021]
  5. ————————————————————————————————
  6. 训练集索引:[0145] 训练集:[10216325]
  7. 测试集索引:[23] 测试集:[2353]
  8. ————————————————————————————————
  9. 训练集索引:[0123] 训练集:[10212353]
  10. 测试集索引:[45] 测试集:[6325]

留一法

交叉验证的变种,每次只留一个数据作为测试集。例如有n个数需要被划分,则留一法就相当于k=n的交叉验证。

  1. # 核心代码for train_index, test_index in LeaveOneOut().split(data):...略...
  1. # 完整代码from sklearn.model_selection import LeaveOneOut
  2. import numpy as np
  3. data = np.array([10,20,30,40])for train_index, test_index in LeaveOneOut().split(data):print("————————————————————————————————")print("训练集索引:",train_index,"训练集:",data[train_index])print("测试集索引:",test_index,"测试集:",data[test_index])
  1. # 输出
  2. ————————————————————————————————
  3. 训练集索引:[123] 训练集:[203040]
  4. 测试集索引:[0] 测试集:[10]
  5. ————————————————————————————————
  6. 训练集索引:[023] 训练集:[103040]
  7. 测试集索引:[1] 测试集:[20]
  8. ————————————————————————————————
  9. 训练集索引:[013] 训练集:[102040]
  10. 测试集索引:[2] 测试集:[30]
  11. ————————————————————————————————
  12. 训练集索引:[012] 训练集:[102030]
  13. 测试集索引:[3] 测试集:[40]

性能度量

均方误差MSE

  1. M
  2. S
  3. E
  4. =
  5. 1
  6. n
  7. i
  8. =
  9. 1
  10. n
  11. (
  12. f
  13. (
  14. x
  15. i
  16. )
  17. y
  18. i
  19. )
  20. 2
  21. MSE = \frac{1}{n}\sum_{i=1}^{n}(f(x_i)-y_i)^2
  22. MSE=n1i=1n​(f(xi​)−yi​)2

实现如下:

  1. # 核心代码"""
  2. 均方误差 = mean_squared_error(真值列表,预测值列表)
  3. """
  4. result = mean_squared_error(y_true, y_pred)
  1. import numpy as np
  2. from sklearn.metrics import mean_squared_error
  3. y_true = np.array([1,2,3,4,5,6])# 正确数据
  4. y_pred = np.array([0,2,2,4,5,7])# 预测数据
  5. result = mean_squared_error(y_true, y_pred)# result结果为0.5

均方根误差RMSE

  1. R
  2. M
  3. S
  4. E
  5. =
  6. 1
  7. n
  8. i
  9. =
  10. 1
  11. n
  12. (
  13. f
  14. (
  15. x
  16. i
  17. )
  18. y
  19. i
  20. )
  21. 2
  22. RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(f(x_i)-y_i)^2}
  23. RMSE=n1i=1n​(f(xi​)−yi​)2
  1. # 实现(MSE套一层根号即可)
  2. result = np.sqrt( mean_squared_error(y_true, y_pred))

平均绝对误差MAE

  1. M
  2. A
  3. E
  4. =
  5. 1
  6. n
  7. i
  8. =
  9. 1
  10. m
  11. f
  12. (
  13. x
  14. i
  15. )
  16. y
  17. i
  18. MAE = \frac{1}{n}\sum_{i=1}^{m}|f(x_i)-y_i|
  19. MAE=n1i=1m​∣f(xi​)−yi​∣

实现起来非常简单,就是将MSE中的

  1. mean_squared_error

替换成

  1. mean_absolute_error

  1. # 实现import numpy as np
  2. from sklearn.metrics import mean_absolute_erro
  3. y_true = np.array([1,2,3,4,5,6])# 正确数据
  4. y_pred = np.array([0,2,2,4,5,7])# 预测数据
  5. result = mean_absolute_error(y_true, y_pred)

准确率

预测对的 / 所有

  1. a
  2. c
  3. c
  4. =
  5. 1
  6. n
  7. i
  8. =
  9. 1
  10. n
  11. (
  12. f
  13. (
  14. x
  15. i
  16. )
  17. =
  18. y
  19. i
  20. )
  21. acc=\frac{1}{n}\sum_{i=1}^{n}(f(x_i)=y_i)
  22. acc=n1i=1n​(f(xi​)=yi​)
  1. # 核心代码"""
  2. 准确率 = accuracy_score(正确数据列表,预测数据列表)
  3. """
  4. result = accuracy_score(y_true,y_pred)
  1. # 完整代码import numpy as np
  2. from sklearn.metrics import accuracy_score
  3. y_true = np.array([1,2,3,4,5,6])# 正确
  4. y_pred = np.array([0,2,2,4,5,7])# 预测
  5. result = accuracy_score(y_true,y_pred)

混淆矩阵

真实情况\预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)

  • 查准率:预测为正中,预测正确的概率 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP​
  • 查全率:真实情况为正中,预测正确的概率 R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP​
  • 准确率 A C C = T P + T N T P + F P + T N + F N ACC = \frac{TP+TN}{TP+FP+TN+FN} ACC=TP+FP+TN+FNTP+TN​

通过生成真实数据与预测数据的混淆矩阵,可以更好的看出预测的情况。

  1. # 核心代码"""
  2. 混淆矩阵 = confusion_matrix(真实数据集,预测数据集,labels=标签集)
  3. 此处的标签集不好理解,看下面的样例就懂了
  4. """
  5. result = confusion_matrix(y_true,y_pred,labels=[0,1])
  1. # 完整代码import numpy as np
  2. from sklearn.metrics import confusion_matrix
  3. y_pred = np.array([0,1,0,1])# 预测数据
  4. y_true = np.array([1,0,1,1])# 正确数据
  5. result = confusion_matrix(y_true,y_pred,labels=[0,1])
  1. # 输出[[01][21]]

上述输出可以用如下表格来解释

此处假设0为正例,1为反例

真实情况\预测结果01001121
以上表格蕴含了以下信息:
真实情况预测结果预测次数结果000真正例TP = 0011假反例FN = 1,预测错误1次102假正例FP = 2,预测错误2次111真反例TN = 1,预测成功1次

  1. =
  2. T
  3. P
  4. T
  5. P
  6. +
  7. F
  8. P
  9. =
  10. 0
  11. 0
  12. +
  13. 2
  14. =
  15. 0
  16. 查准率 = \frac{TP}{TP+FP}=\frac{0}{0+2}=0
  17. 查准率=TP+FPTP​=0+20​=0
  18. =
  19. T
  20. P
  21. T
  22. P
  23. +
  24. F
  25. N
  26. =
  27. 0
  28. 0
  29. +
  30. 1
  31. =
  32. 0
  33. 查全率 = \frac{TP}{TP+FN}=\frac{0}{0+1}=0
  34. 查全率=TP+FNTP​=0+10​=0
  35. =
  36. T
  37. P
  38. +
  39. T
  40. N
  41. T
  42. P
  43. +
  44. F
  45. P
  46. +
  47. T
  48. N
  49. +
  50. F
  51. N
  52. =
  53. 0
  54. +
  55. 1
  56. 0
  57. +
  58. 2
  59. +
  60. 1
  61. +
  62. 1
  63. =
  64. 1
  65. 4
  66. 准确率=\frac{TP+TN}{TP+FP+TN+FN}=\frac{0+1}{0+2+1+1} = \frac{1}{4}
  67. 准确率=TP+FP+TN+FNTP+TN​=0+2+1+10+1​=41

实际上,sklearn也提供了直接计算查准率的函数

  1. precision_score
  1. # 查准率import numpy as np
  2. from sklearn.metrics import precision_score
  3. y_pred = np.array([0,1,0,1])# 预测数据
  4. y_true = np.array([1,0,1,1])# 正确数据
  5. accu = precision_score(y_true,y_pred,average='macro')# accu结果为0.25

ROC曲线

真实情况\预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)

  1. R
  2. O
  3. C
  4. 线
  5. X
  6. f
  7. p
  8. r
  9. =
  10. F
  11. P
  12. F
  13. P
  14. +
  15. T
  16. N
  17. =
  18. ROC曲线X轴:fpr=\frac{FP}{FP+TN}=\frac{真实情况中:反例预测错误的}{真实情况中:反例总和}
  19. ROC曲线X轴:fpr=FP+TNFP​=真实情况中:反例总和真实情况中:反例预测错误的​
  20. R
  21. O
  22. C
  23. 线
  24. Y
  25. t
  26. p
  27. r
  28. (
  29. )
  30. =
  31. T
  32. P
  33. T
  34. P
  35. +
  36. F
  37. N
  38. =
  39. ROC曲线Y轴:tpr(查全率)=\frac{TP}{TP+FN}=\frac{真实情况中:正例中预测正确的}{真实情况中:正例总和}
  40. ROC曲线Y轴:tpr(查全率)=TP+FNTP​=真实情况中:正例总和真实情况中:正例中预测正确的​

在ROC曲线中,AUC(曲线下的面积)值越大,说明该模型性能越好。

  1. # 核心代码"""
  2. x轴列表, y轴列表, _ = roc_curve(真实数据,预测数据)
  3. 曲线下面积 = auc(x轴列表, y轴列表)
  4. """
  5. fpr_x, tpr_y, _ = roc_curve(y_true, y_pred)# 生成ROC曲线的x、y值列表
  6. auc = auc(fpr_x, tpr_y)# 计算曲线下的面积
  1. # 完整代码import numpy as np
  2. from sklearn.metrics import roc_curve, auc
  3. y_pred = np.array([0.1,0.8,0.2,0.5,0.5,0.7,0.3,0.1])# 预测数据
  4. y_true = np.array([0,1,0,1,1,1,0,1])# 正确数据
  5. fpr_x, tpr_y, _ = roc_curve(y_true, y_pred)# 生成ROC曲线的xy值列表
  6. auc = auc(fpr_x, tpr_y)# 计算曲线下的面积# auc结果为0.8333333333333334

协方差Cov

  1. C
  2. o
  3. v
  4. (
  5. X
  6. ,
  7. Y
  8. )
  9. =
  10. i
  11. =
  12. 1
  13. n
  14. (
  15. x
  16. i
  17. x
  18. )
  19. (
  20. y
  21. i
  22. y
  23. )
  24. n
  25. 1
  26. Cov(X,Y)=\frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{n-1}
  27. Cov(X,Y)=n1i=1n​(xi​−x)(yi​−y​)​

通过一个实例来计算:

  1. 为方便计算,我们只定义两个点,每个点(样本)有两个特征:x与y

    1. d
    2. o
    3. t
    4. 1
    5. =
    6. (
    7. 1
    8. ,
    9. 3
    10. )
    11. d
    12. o
    13. t
    14. 2
    15. =
    16. (
    17. 5
    18. ,
    19. 7
    20. )
    21. (
    22. n
    23. =
    24. 2
    25. )
    26. dot_1 = (1,3)\\dot_2=(5,7)\\(n=2)

    dot1​=(1,3)dot2​=(5,7)(n=2)

  2. 用两个变量空间x,y分别表示特征对应的向量 x = [ 1 5 ] , y = [ 3 7 ] x=\begin{bmatrix} 1\5 \end{bmatrix} , y=\begin{bmatrix} 3\7 \end{bmatrix} x=[15​],y=[37​]

  3. 计算特征的均值 x ‾ = 3 , y ‾ = 5 \overline{x}=3,\overline{y}=5 x=3,y​=5

  4. 计算协方差 C o v ( x , x ) = ( 1 − 3 ) 2 + ( 5 − 3 ) 2 2 − 1 = 8 C o v ( x , y ) = ( 1 − 3 ) ( 3 − 5 ) + ( 5 − 3 ) ( 7 − 5 ) 2 − 1 = 8 C o v ( y , x ) = C o v ( x , y ) = 8 C o v ( y , y ) = ( 3 − 5 ) 2 + ( 7 − 5 ) 2 2 − 1 = 8 Cov(x,x) = \frac{(1-3)^2+(5-3)^2}{2-1}=8\ Cov(x,y) = \frac{(1-3)(3-5)+(5-3)(7-5)}{2-1}=8\ Cov(y,x)=Cov(x,y)=8\ Cov(y,y) = \frac{(3-5)^2+(7-5)^2}{2-1}=8 Cov(x,x)=2−1(1−3)2+(5−3)2​=8Cov(x,y)=2−1(1−3)(3−5)+(5−3)(7−5)​=8Cov(y,x)=Cov(x,y)=8Cov(y,y)=2−1(3−5)2+(7−5)2​=8

  5. 生成协方差矩阵 C o v ( z ) = [ C o v ( x , x ) C o v ( x , y ) C o v ( y , x ) C o v ( y , y ) ] = [ 8 8 8 8 ] Cov(z)= \begin{bmatrix} Cov(x,x) & Cov(x,y)\ Cov(y,x) & Cov(y,y) \end{bmatrix} = \begin{bmatrix} 8 & 8\ 8 & 8 \end{bmatrix} Cov(z)=[Cov(x,x)Cov(y,x)​Cov(x,y)Cov(y,y)​]=[88​88​]

下面用代码实现上述过程:

  1. import numpy as np
  2. x = np.array([1,5])
  3. y = np.array([3,7])
  4. z = np.stack([x,y])# z=[[1,5],[3,7]]
  5. result = np.cov(z)# 生成协方差矩阵
  1. result的值
  2. [[8.8.][8.8.]]

意义:协方差用来描述X和Y的相关程度
值范围意义Cov( X , Y ) < 0X与Y负相关Cov( X , Y ) > 0X与Y正相关Cov( X , Y ) = 0X与Y不相关

Sklearn线性模型

线性回归

给一些点

  1. (xi,yi)

,用线性回归找出一条线

  1. y=wx+b

,该线能够最大程度的与点拟合。

通过这条回归线,我们能根据

  1. xi

预测出

  1. yi

的大概值。代码实现如下:

  1. # 核心代码
  2. model = LinearRegression()# 定义线性模型
  3. model.fit(x, y)# 根据(x,y)点集生成线性模型
  4. x_test =[[4],[5],[6]]# 测试数据
  5. y_test = model.predict(x_test)# 模型预测结果
  1. # 完整代码import numpy as np
  2. from sklearn.linear_model import LinearRegression
  3. # 准备自变量与因变量# 这部分不用看,只知道生成了(x,y)散点即可
  4. x = np.array([0,1,2,3,4])# 自变量x
  5. y =3* x +2# 因变量y: [ 2 5 8 11 14]
  6. x = x + np.random.rand(5)# 将点用随机数打乱
  7. x =[[i]for i in x]# 行变列,如[1,2,3]会变成[[1],[2],[3]]
  8. y =[[i]for i in y]# 行变列,这是sklearn包要求的格式# 建立线性模型
  9. model = LinearRegression()# 定义线性模型
  10. model.fit(x, y)# 根据(x,y)点集生成线性模型# 准备测试数据
  11. x_test =[[4],[5],[6]]# 打印预测结果
  12. y_test = model.predict(x_test)print(y_test)print("w值:", model.coef_)print("b截距值为:", model.intercept_)
  1. # 输出[[12.79914287][15.74000827][18.68087368]]
  2. w值:[[2.9408654]]
  3. b截距值为:[1.03568125]

上述代码生成了以下线性模型

  1. y
  2. =
  3. w
  4. x
  5. +
  6. b
  7. =
  8. 2.9408654
  9. x
  10. +
  11. 1.03568125
  12. y=wx+b=2.9408654x+1.03568125
  13. y=wx+b=2.9408654x+1.03568125

将测试数据x代入该公式即可得到预测值y。

后面的pytorch部分将会通过梯度下降的方法来生成线性模型。

逻辑回归

以鸢尾花数据集为例。与上述线性回归极其相似,因此不作过多解释。

  1. # 完整代码from sklearn import datasets
  2. from sklearn.linear_model import LogisticRegression
  3. from sklearn.model_selection import train_test_split
  4. from sklearn.metrics import accuracy_score
  5. # 获取数据集
  6. iris = datasets.load_iris()
  7. iris_x = iris.data
  8. iris_y = iris.target
  9. # 留出法划分数据集
  10. x_train, x_test, y_train, y_test = train_test_split(iris_x, iris_y, test_size=0.1)# 生成逻辑回归模型
  11. model = LogisticRegression()
  12. model.fit(x_train, y_train)# 检验模型
  13. y_pred = model.predict(x_test)
  14. accu = accuracy_score(y_test, y_pred)

Pytorch简介

偏导数计算

计算

  1. y
  2. =
  3. (
  4. x
  5. +
  6. w
  7. )
  8. (
  9. w
  10. +
  11. 1
  12. )
  13. y=(x+w)(w+1)
  14. y=(x+w)(w+1)对
  15. x
  16. x
  17. x的偏导数,公式可以分解为下图:

#mermaid-svg-hVivz7Xc8LqeDbUO {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO .error-icon{fill:#552222;}#mermaid-svg-hVivz7Xc8LqeDbUO .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-hVivz7Xc8LqeDbUO .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-hVivz7Xc8LqeDbUO .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-hVivz7Xc8LqeDbUO .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-hVivz7Xc8LqeDbUO .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-hVivz7Xc8LqeDbUO .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-hVivz7Xc8LqeDbUO .marker{fill:#333333;stroke:#333333;}#mermaid-svg-hVivz7Xc8LqeDbUO .marker.cross{stroke:#333333;}#mermaid-svg-hVivz7Xc8LqeDbUO svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-hVivz7Xc8LqeDbUO .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO .cluster-label text{fill:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO .cluster-label span{color:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO .label text,#mermaid-svg-hVivz7Xc8LqeDbUO span{fill:#333;color:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO .node rect,#mermaid-svg-hVivz7Xc8LqeDbUO .node circle,#mermaid-svg-hVivz7Xc8LqeDbUO .node ellipse,#mermaid-svg-hVivz7Xc8LqeDbUO .node polygon,#mermaid-svg-hVivz7Xc8LqeDbUO .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-hVivz7Xc8LqeDbUO .node .label{text-align:center;}#mermaid-svg-hVivz7Xc8LqeDbUO .node.clickable{cursor:pointer;}#mermaid-svg-hVivz7Xc8LqeDbUO .arrowheadPath{fill:#333333;}#mermaid-svg-hVivz7Xc8LqeDbUO .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-hVivz7Xc8LqeDbUO .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-hVivz7Xc8LqeDbUO .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-hVivz7Xc8LqeDbUO .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-hVivz7Xc8LqeDbUO .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-hVivz7Xc8LqeDbUO .cluster text{fill:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO .cluster span{color:#333;}#mermaid-svg-hVivz7Xc8LqeDbUO div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-hVivz7Xc8LqeDbUO :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

  1. 1
  2. y
  3. *
  4. a
  5. b
  6. +
  7. x
  8. w
  9. +
  10. w

用pytorch构建上述公式,可以很容易的求出偏导数,代码如下:

  1. import torch
  2. # 生成公式 y=(x+w)*(w+1)
  3. x = torch.tensor([2.0], requires_grad=True)# x的偏导数,必须使requires_grad=True,否则报错
  4. w = torch.tensor([1.0])
  5. a = torch.add(x, w)# a = x+w
  6. b = torch.add(w,1)# b = w+1
  7. y = torch.mul(a, b)# y = a*b# 反向传播,计算所有requires_grad=True张量(tensor)的导数
  8. y.backward()print(x.grad)# x的偏导数
  1. # 结果
  2. tensor([2.])

多次求导

  1. backward(retain_graph=True)

可以保留计算图,再调用一次

  1. backward()

即可实现二阶求导。代码修改如下:

  1. # 核心代码
  2. y.backward(retain_graph=True)# 计算保留图,用于二次求导print(x.grad)# x的一阶导
  3. y.backward()# 二次求导print(x.grad)# x的二阶导
  1. # 完整代码import torch
  2. # 构建公式 y=(x+w)*(w+1)
  3. x = torch.tensor([2.0], requires_grad=True)# x的偏导数,必须使requires_grad=True,否则报错
  4. w = torch.tensor([1.0])
  5. a = torch.add(x, w)# a = x+w
  6. b = torch.add(w,1)# b = w+1
  7. y = torch.mul(a, b)# y = a*b# 反向传播,计算所有requires_grad=True的导数
  8. y.backward(retain_graph=True)# 计算保留图,用于二次求导print(x.grad)# x的一阶导
  9. y.backward()print(x.grad)# x的二阶导

非标量输出

使用

  1. torch.cat()

函数我们可以将不同的函数结合到一起,实现下图计算:

#mermaid-svg-eCsndn90A4qvwq96 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-eCsndn90A4qvwq96 .error-icon{fill:#552222;}#mermaid-svg-eCsndn90A4qvwq96 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-eCsndn90A4qvwq96 .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-eCsndn90A4qvwq96 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-eCsndn90A4qvwq96 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-eCsndn90A4qvwq96 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-eCsndn90A4qvwq96 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-eCsndn90A4qvwq96 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-eCsndn90A4qvwq96 .marker.cross{stroke:#333333;}#mermaid-svg-eCsndn90A4qvwq96 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-eCsndn90A4qvwq96 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-eCsndn90A4qvwq96 .cluster-label text{fill:#333;}#mermaid-svg-eCsndn90A4qvwq96 .cluster-label span{color:#333;}#mermaid-svg-eCsndn90A4qvwq96 .label text,#mermaid-svg-eCsndn90A4qvwq96 span{fill:#333;color:#333;}#mermaid-svg-eCsndn90A4qvwq96 .node rect,#mermaid-svg-eCsndn90A4qvwq96 .node circle,#mermaid-svg-eCsndn90A4qvwq96 .node ellipse,#mermaid-svg-eCsndn90A4qvwq96 .node polygon,#mermaid-svg-eCsndn90A4qvwq96 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-eCsndn90A4qvwq96 .node .label{text-align:center;}#mermaid-svg-eCsndn90A4qvwq96 .node.clickable{cursor:pointer;}#mermaid-svg-eCsndn90A4qvwq96 .arrowheadPath{fill:#333333;}#mermaid-svg-eCsndn90A4qvwq96 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-eCsndn90A4qvwq96 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-eCsndn90A4qvwq96 .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-eCsndn90A4qvwq96 .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-eCsndn90A4qvwq96 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-eCsndn90A4qvwq96 .cluster text{fill:#333;}#mermaid-svg-eCsndn90A4qvwq96 .cluster span{color:#333;}#mermaid-svg-eCsndn90A4qvwq96 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-eCsndn90A4qvwq96 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

  1. y0=(x+w)(w+3)
  2. ∂(y0)/∂w = 7
  3. loss/∂w = ∂(y0)/∂w * 1 + ∂(y1)/∂w * 2
  4. = 7 * 1 + 2 * 2 = 11
  5. y1=(x+w)+(w+3)
  6. ∂(y1)/∂w = 2

代码实现如下

  1. # 核心代码
  2. loss = torch.cat([y0, y1], dim=0)# dim=0代表横向拼接
  3. loss_w = torch.tensor([1.,2.])# 设置权重,y01y12
  4. loss.backward(gradient=loss_w)# 反向传播
  1. # 完整代码import torch
  2. # 构建两个公式
  3. w = torch.tensor([1.], requires_grad=True)
  4. x = torch.tensor([2.],)
  5. a = torch.add(w, x)
  6. b = torch.add(w,3)
  7. y0 = torch.mul(a, b)# y0 = (x+w)(w+3)
  8. y1 = torch.add(a, b)# y1 = (x+w)+(w+3)# 合并公式
  9. loss = torch.cat([y0, y1], dim=0)# dim=0代表横向拼接
  10. loss_w = torch.tensor([1.,2.])# 设置权重,y01y12
  11. loss.backward(gradient=loss_w)# 反向传播print(w.grad)# w的偏导数
  1. # 输出
  2. tensor([11.])

线性回归

问题:给定若干

  1. (
  2. x
  3. ,
  4. y
  5. )
  6. (x,y)
  7. (x,y)点集,找出一条直线
  8. y
  9. =
  10. w
  11. x
  12. +
  13. b
  14. y=wx+b
  15. y=wx+b,使所有点到直线的距离之和最小。

目标:找到合适的

  1. w
  2. w
  3. w
  4. b
  5. b
  6. b,使损失函数
  7. L
  8. =
  9. 1
  10. N
  11. i
  12. =
  13. 1
  14. N
  15. (
  16. w
  17. x
  18. i
  19. +
  20. b
  21. y
  22. t
  23. r
  24. u
  25. e
  26. )
  27. 2
  28. L=\frac{1}{N}\sum_{i=1}^{N}(wx_i+b-y_{true})^2
  29. L=N1​∑i=1N​(wxi​+bytrue​)2 的值最小。

方法:我们需要对损失函数关于

  1. w
  2. w
  3. w
  4. b
  5. b
  6. b求导:
  7. L
  8. w
  9. \frac{\partial{L}}{\partial{w}}
  10. wL​,
  11. L
  12. b
  13. \frac{\partial{L}}{\partial{b}}
  14. bL​,然后使用公式
  15. w
  16. t
  17. +
  18. 1
  19. =
  20. w
  21. t
  22. μ
  23. L
  24. w
  25. b
  26. t
  27. +
  28. 1
  29. =
  30. b
  31. t
  32. μ
  33. L
  34. b
  35. (
  36. μ
  37. :
  38. )
  39. w_{t+1}=w_t-\mu\frac{\partial{L}}{\partial{w}} \\ b_{t+1}=b_t-\mu\frac{\partial{L}}{\partial{b}} \\(\mu:学习率,梯度下降的跨度)
  40. wt+1​=wt​−μ∂wLbt+1​=bt​−μ∂bL​(μ:学习率,梯度下降的跨度)

不断调整

  1. w
  2. w
  3. w
  4. b
  5. b
  6. b的值,直到得到合适的线性模型。
  1. import matplotlib.pyplot as plt
  2. import torch
  3. # 准备自变量与因变量# 这部分不用看,只知道生成了(x,y)散点即可
  4. x = torch.rand(20,1)*10# [20*1]的0-1的随机数 * 10
  5. y =2* x +(5+ torch.randn(20,1))# y = 2x + 5# 学习率
  6. mu =0.05# 构建线性回归参数 y_pred = wx + b
  7. w = torch.tensor(5.0, requires_grad=True)# 初始化w
  8. b = torch.tensor(10.0, requires_grad=True)# 初始化b# 迭代训练1000次for i inrange(1000):"""向前传播,计算预测值 y_pred = wx + b"""
  9. wx = torch.mul(w, x)# wx = w * x
  10. y_pred = torch.add(wx, b)# y_pred = w * x + b# 计算MSE loss# 目的是为了使loss尽可能小
  11. loss =(0.5*(y - y_pred)**2).mean()# 反向传播,求bw的偏导数
  12. loss.backward()# 更新参数# 此处等同于 w = w.sub(w,lr*w.grad)# 后面带下划线的都是in-place的,会将调用者改变
  13. w.data.sub_(mu * w.grad)# 调整w的值
  14. b.data.sub_(mu * b.grad)# 调整b的值# 更新参数后一定要清零梯度if i !=999:
  15. w.grad.zero_()
  16. b.grad.zero_()# 每隔50次循环输出一次图像if i %50==0:
  17. plt.scatter(x.data.numpy(), y.data.numpy())# 散点
  18. plt.plot(x.data.numpy(), y_pred.data.numpy())# 回归直线
  19. plt.show()

SVM


本文转载自: https://blog.csdn.net/qq_15989473/article/details/125133281
版权归原作者 阿腾木 所有, 如有侵权,请联系我们删除。

“机器学习基础备忘录”的评论:

还没有评论