0


【深度学习】(问题记录)<对一个变量求梯度得到什么>-线性回归-小批量随机梯度下降

🚩 前言

🚀 博主主页:阿阿阿阿锋的主页_CSDN
🚀 原文链接:原文

看书看得感觉前言搭不上后语的时候,我常常忍不住怀疑是不是这书写得有点问题(有时甚至会在心里骂作者几句,怎么这么不小心)。然而经验和残留的理智仍然会提醒我,这大概率是我自己的问题。

我的编程环境:Win10操作系统,python3.6

初学不久,文章如有问题,欢迎指出。


文章目录


1. 问题和代码

对于代码里

  1. sgd

函数中的

  1. param[:] = param - lr * param.grad / batch_size

这一行我一直十分困惑。

例如代码中设置了一个小批量是10个样本,于是我觉得对参数集

  1. params

求梯度时,得到每个参数的梯度应该是向量(可以理解为一个数组)类型的数据。因为对于每个参数,通过10个样本求梯度就会得到10个相应的值。

于是我就产生了疑问,

  1. / batch_size

的目的是得到梯度的平均值,但它左边的被除数并不是一个标量(普通的单个的值),那这行代码怎么会得到我们想要的一个平均值呢?

注:代码参考自《动手学深度学习》
代码

  1. # 代码目标:训练一个线性回归模型,用小批量随机梯度下降法%matplotlib inline
  2. from IPython import display
  3. from matplotlib import pyplot as plt
  4. from mxnet import autograd, nd
  5. import random
  6. # 制作训练集
  7. num_inputs =2
  8. num_examples =1000
  9. true_w =[2,-3.4]
  10. true_b =4.2
  11. features = nd.random.normal(scale=1, shape=(num_examples, num_inputs))
  12. labels = true_w[0]* features[:,0]+ true_w[1]* features[:,1]+ true_b
  13. labels += nd.random.normal(scale=0.01, shape=labels.shape)
  14. features[0], labels[0]defuse_svg_display():# 用矢量图显示
  15. display.set_matplotlib_formats('svg')defset_figsize(figsize=(3.5,2.5)):
  16. use_svg_display()# 设置图的尺寸
  17. plt.rcParams['figure.figsize']= figsize
  18. set_figsize()
  19. plt.scatter(features[:,1].asnumpy(), labels.asnumpy(),1);# 加分号只显示图(否则还会显示一行字)# 本函数已保存在d2lzh包中方便以后使用defdata_iter(batch_size, features, labels):
  20. num_examples =len(features)
  21. indices =list(range(num_examples))
  22. random.shuffle(indices)# 样本的读取顺序是随机的for i inrange(0, num_examples, batch_size):
  23. j = nd.array(indices[i:min(i + batch_size, num_examples)])yield features.take(j), labels.take(j)# take函数根据索引返回对应元素
  24. batch_size =10# 一个“小批量”的大小# 建立我们要训练的模型的参数
  25. w = nd.random.normal(scale=0.01, shape=(num_inputs,1))
  26. b = nd.zeros(shape=(1,))
  27. w.attach_grad()
  28. b.attach_grad()deflinreg(X, w, b):# 我们的模型函数return nd.dot(X, w)+ b
  29. defsquared_loss(y_hat, y):# 使用的损失函数return(y_hat - y.reshape(y_hat.shape))**2/2defsgd(params, lr, batch_size):# 用于迭代(更新)参数for param in params:
  30. param[:]= param - lr * param.grad / batch_size
  31. lr =0.03# 学习率
  32. num_epochs =3# 学习周期个数
  33. net = linreg # 取个小名
  34. loss = squared_loss
  35. for epoch inrange(num_epochs):# 训练模型一共需要num_epochs个迭代周期# 在每一个迭代周期中,会使用训练数据集中所有样本一次(假设样本数能够被批量大小整除)。X# X和y分别是小批量样本的特征和标签for X, y in data_iter(batch_size, features, labels):with autograd.record():
  36. l = loss(net(X, w, b), y)# l是有关小批量Xy的损失
  37. l.backward()# 小批量的损失对模型参数求梯度
  38. sgd([w, b], lr, batch_size)# 使用小批量随机梯度下降迭代模型参数
  39. train_l = loss(net(features, w, b), labels)print('epoch %d, loss %f'%(epoch +1, train_l.mean().asnumpy()))print('\nweights:')print(true_w, w)print('\nbias:')print(true_b, b)

2. 分析问题

在胡思乱想了一阵后,我突然想到,为何不把参数

  1. param

的梯度打印出来看看呢?那它是个什么情况不就一目了然!请看代码:

  1. defsgd(params, lr, batch_size):# 用于迭代(更新)参数for param in params:
  2. param[:]= param - lr * param.grad / batch_size
  3. print('\nparam.grad:')print(param.grad)

我仅仅在

  1. sgd

函数尾部加了两行打印,那么我们再看一下效果(每处理一个小批量样本时都会调用一次该函数,看一次就够了,因为我只是想知道参数的梯度的数据类型)

运行效果
在这里插入图片描述
前面的

  1. param.grad

代表的是两个 权重(weight) 参数的梯度,后面的是 偏差(bias) 参数的梯度。也就是说,每个参数求得的梯度都只有一个值。

为什么一批10个样本,得到的只有一个值呢?

这个值是什么?其实在执行

  1. l.backward()

时,等价于在执行

  1. l.sum().backward()

,也就是对一批中每个样本都有一个梯度值,然后把这10个梯度值加起来,得到了参数的梯度值。所以再用

  1. / batch_size

求平均值也是一件很自然的事情。

其实我后面不久就看到了这个解释,但因为前面我就已经蒙圈了,看到这里的时候只是

  1. 蒙圈++

🧭 总结

种瓜得瓜,种豆得豆。
变量是什么形状,对这个变量求得的梯度就是什么形状。

我之所以下意识地以为得到的会是一组值而不是一个值,是因为前面看了个对矩阵求梯度的例子,得到的是一组值(一个矩阵)。然后看到这里就混淆了,这里我们求梯度的每个参数对象是一个单个的值,只是数据样本有多个。
对矩阵(向量)求梯度求得梯度是个矩阵(向量)对一个标量求梯度求得梯度是个标量
我还有一个感受就是,作为一个之前惯用C/C++程序员,python变量数据类型的这种灵活性真的让我非常、非常的不适应,我多次因此而蒙圈了,呜。


本文转载自: https://blog.csdn.net/m0_63238256/article/details/126044509
版权归原作者 阿阿阿阿锋 所有, 如有侵权,请联系我们删除。

“【深度学习】(问题记录)<对一个变量求梯度得到什么>-线性回归-小批量随机梯度下降”的评论:

还没有评论