做深度学习自己电脑配置差?一篇文章教你使用gpu服务器!
在这个迅速变化的数字时代,深度学习已经成为科技革命的先锋,而拥有强大并行计算能力的gpu则可以成为它强大力量的源泉。
随着现在网络模型的逐渐增大,训练一个基于自己数据集的模型所需要的gpu算力和显存也随之水涨船高,相信很多小伙伴也有过这种烦恼:
1.运行模型设置batch-size为1依然爆显存,花费巨大精力设置电脑虚拟现存,结果还是不行。
2.实验室有显卡,但是排在前面的师兄师姐占据资源时间太久,没有充足的计算资源。我选择偷偷kill -9其他人进程(不要这样干,会被打)。
3.使用自己电脑运行,风扇转的飞起,温度飙升100C,晚上睡觉依然担惊受怕电脑会不会从此归西。
现在有了远程gpu云服务器,以上问题都迎刃而解!
下面本文将从以下几个方面一步一步教你如何使用云服务器
(备注:作者没有打广告,也没有任何收入,完全是想让刚入门的大家也能用上gpu来简单验证自己的模型,教程也是作者自己使用觉得最好用最有性价比的平台和方法。)
下面开始正式的教程
文章目录
1.使用前的准备
为了使用云服务器,我们大致需要准备以下两样东西:
- AutoDL平台账号(因为性价比较高,作者只讲这个)
- termius软件下载
AutoDL平台注册
https://www.autodl.com/home
注册账号大家都会,小伙伴们注册好了就行。
termius软件下载
https://www.termius.com/download/windows
Termius 不仅仅是一个传统的 SSH 客户端;它是一个为移动性和便捷性而生的全功能远程访问解决方案。无论是使用 Windows, macOS, Linux, iOS 还是 Android 设备,Termius 都为您提供了无缝的体验,让您能够轻松地管理和连接到任何SSH或Telnet服务器。他有跨平台兼容性,安全可靠,易于管理,也有一些高级功能和团队合作功能。根据作者本人使用而言,这个ssh软件非常好用,也可以在多平台之间方便切换,强推!(学生可以申请免费会员,不是会员也是几乎所有功能都能用)
2.AutoDL平台快速租用服务器上手
下面我们来快速上手租用gpu服务器
到这里为止相信大家以及租用好自己的gpu云服务器了!那么接下来我们则来学习使用这个云服务器的方法。
3.termius连接服务器
打开刚才下载好的termius ssh软件,跟着图片进行操作
接着重新打开浏览器回到AutoDL平台,记得我们刚才说需要用到的指令和密码吗?这里作者将自己这个临时的复制下来给大家看看怎么用
登录指令
ssh -p 46997 [email protected]
密码
6+O0wusLgecE
大家打开termius,给大家讲一下上面图片中红框和这两个数据的对应关系
登录指令
ssh -p 46997 [email protected]
对应
ssh -p <port> username@Address
其中
46997
为第二个红框中的 port (默认22)。
@符号后面的则是我们的服务器地址,对应termius中第一个红框的Address。
region-31.seetacloud.com
注意到第二个红框中的username和password
[email protected]
中 @ 符号前面的 root就是我们的username,password则是复制下来的密码。
接下来我们将这个都对应输入termius中:
点击连接后,会弹出一些询问,都确认继续就行。当出现以下界面,表示我们连接远程服务器成功了。
4.如何在本地和云服务器之间传递数据
连接上服务器后,我们就已经成功85%了,接下来我们需要学习如何在本地和远程服务器之间传输文件,数据。
方法一:利用AutoDL平台
还记得作者一开始让大家选择内蒙A区吗?这是因为在这个区的服务器上,我们可以使用云盘
推荐大家上传zip,这样在linux上解压只需要、
unzip <filename>
即可,非常方便。
方法二:利用termius软件
进入termius界面,如下如操作:
这样则可以直观的在本地和远程服务器之间传输数据,小提示,推荐大家传输大型文件夹还是选择传输zip文件,这样传输速率会比直接拖动文件夹更快。
5. 如何保持后台运行程序
提醒!作者曾经在这方面吃过亏,在运行训练模型时一定要保持后台运行,因为一般情况下ssh软件关闭时,会导致远程服务器上的程序也停止运行,那么接下来作者教大家如何保持后台运行。
很简单,我们只需要一个tmux即可,tmux是什么东西怎么用如何安装,作者这里不作进一步解释,只教大家怎么进入,退出,再次进入,关闭,这四个简单操作,相信已经够用了。(想学习其他用法可以自行搜索)。
# 进入
tmux
# 退出(先按下crtl + b, 再按d,后面命令以此类推)
crtl + b + d
# 再次进入(0为窗口号)
tmux a -t 0
# 关闭(在tmux窗口里面输入)
exit
这一套九阳神功下来,简简单单防止意外导致的程序退出。
6. 关机,保存,释放
在我们的训练结束时,我们需要保存我们的checkpoint或者其他文件,我们可以采用termius的方法,直接将文件给拖到本地,也可以采用AutoDL的方法来实现。
AutoDL方法实现
记得我们一开始存放的网盘吗,我们可以从网盘里取东西,当然也可以往里面放东西,因此我们可以在程序结束时,将生成的东西给cp到网盘里面,这样我们就可以直接在控制台通过浏览器将文件下载下来(提示,服务器在运行的时候也可以这样做)。其次,我们可以通过保存镜像的方法来保存我们整个系统文件(包括环境和所有文件),保存下来的镜像下次创建服务器可以重复选择,也就是说,新创建的服务器仍然包含这次运行的文件。
7.总结
这篇文章带大家大致学习怎么使用远程服务器进行模型的训练,以及如何后台保持程序,和保存训练数据。相信大伙儿在看完这篇文章后已经学会了吧。如果这篇文章有帮助到你,希望大家给我一个小小的关注,点赞和收藏,谢谢大家了!
有兴趣的小伙伴添加下方名片获取更多资源
版权归原作者 WanHeng WyattVan 所有, 如有侵权,请联系我们删除。