0


SSH?Termius?一篇文章教你使用远程服务器训练!

做深度学习自己电脑配置差?一篇文章教你使用gpu服务器!

在这个迅速变化的数字时代,深度学习已经成为科技革命的先锋,而拥有强大并行计算能力的gpu则可以成为它强大力量的源泉。

随着现在网络模型的逐渐增大,训练一个基于自己数据集的模型所需要的gpu算力和显存也随之水涨船高,相信很多小伙伴也有过这种烦恼:
1.运行模型设置batch-size为1依然爆显存,花费巨大精力设置电脑虚拟现存,结果还是不行。
2.实验室有显卡,但是排在前面的师兄师姐占据资源时间太久,没有充足的计算资源。我选择偷偷kill -9其他人进程(不要这样干,会被打)。
3.使用自己电脑运行,风扇转的飞起,温度飙升100C,晚上睡觉依然担惊受怕电脑会不会从此归西。

现在有了远程gpu云服务器,以上问题都迎刃而解!

下面本文将从以下几个方面一步一步教你如何使用云服务器
(备注:作者没有打广告,也没有任何收入,完全是想让刚入门的大家也能用上gpu来简单验证自己的模型,教程也是作者自己使用觉得最好用最有性价比的平台和方法。)

下面开始正式的教程

文章目录

1.使用前的准备

为了使用云服务器,我们大致需要准备以下两样东西:

  1. AutoDL平台账号(因为性价比较高,作者只讲这个)
  2. termius软件下载

AutoDL平台注册

https://www.autodl.com/home

AutoDL

注册账号大家都会,小伙伴们注册好了就行。

termius软件下载

https://www.termius.com/download/windows

Termius 不仅仅是一个传统的 SSH 客户端;它是一个为移动性和便捷性而生的全功能远程访问解决方案。无论是使用 Windows, macOS, Linux, iOS 还是 Android 设备,Termius 都为您提供了无缝的体验,让您能够轻松地管理和连接到任何SSH或Telnet服务器。他有跨平台兼容性,安全可靠,易于管理,也有一些高级功能和团队合作功能。根据作者本人使用而言,这个ssh软件非常好用,也可以在多平台之间方便切换,强推!(学生可以申请免费会员,不是会员也是几乎所有功能都能用)

AutoDL

2.AutoDL平台快速租用服务器上手

下面我们来快速上手租用gpu服务器
AutoDL

AutoDL

AutoDL

AutoDL

AutoDL

到这里为止相信大家以及租用好自己的gpu云服务器了!那么接下来我们则来学习使用这个云服务器的方法。

3.termius连接服务器

打开刚才下载好的termius ssh软件,跟着图片进行操作

AutoDL

AutoDL

AutoDL

接着重新打开浏览器回到AutoDL平台,记得我们刚才说需要用到的指令和密码吗?这里作者将自己这个临时的复制下来给大家看看怎么用

登录指令
ssh -p 46997 [email protected]
密码
6+O0wusLgecE

大家打开termius,给大家讲一下上面图片中红框和这两个数据的对应关系

登录指令
ssh -p 46997 [email protected]
对应
ssh -p <port> username@Address

其中

46997

为第二个红框中的 port (默认22)。

@符号后面的则是我们的服务器地址,对应termius中第一个红框的Address

region-31.seetacloud.com 

注意到第二个红框中的usernamepassword

[email protected] 

中 @ 符号前面的 root就是我们的username,password则是复制下来的密码。

接下来我们将这个都对应输入termius中:

AutoDL

点击连接后,会弹出一些询问,都确认继续就行。当出现以下界面,表示我们连接远程服务器成功了。

AutoDL

4.如何在本地和云服务器之间传递数据

连接上服务器后,我们就已经成功85%了,接下来我们需要学习如何在本地和远程服务器之间传输文件,数据。

方法一:利用AutoDL平台

还记得作者一开始让大家选择内蒙A区吗?这是因为在这个区的服务器上,我们可以使用云盘

AutoDL

推荐大家上传zip,这样在linux上解压只需要、

unzip <filename>

即可,非常方便。

方法二:利用termius软件

进入termius界面,如下如操作:

AutoDL

这样则可以直观的在本地和远程服务器之间传输数据,小提示,推荐大家传输大型文件夹还是选择传输zip文件,这样传输速率会比直接拖动文件夹更快

5. 如何保持后台运行程序

提醒!作者曾经在这方面吃过亏,在运行训练模型时一定要保持后台运行,因为一般情况下ssh软件关闭时,会导致远程服务器上的程序也停止运行,那么接下来作者教大家如何保持后台运行。

很简单,我们只需要一个tmux即可,tmux是什么东西怎么用如何安装,作者这里不作进一步解释,只教大家怎么进入,退出,再次进入,关闭,这四个简单操作,相信已经够用了。(想学习其他用法可以自行搜索)。

# 进入
tmux
# 退出(先按下crtl + b, 再按d,后面命令以此类推)
crtl + b + d 
# 再次进入(0为窗口号)
tmux a -t 0
# 关闭(在tmux窗口里面输入)
exit

这一套九阳神功下来,简简单单防止意外导致的程序退出。

6. 关机,保存,释放

在我们的训练结束时,我们需要保存我们的checkpoint或者其他文件,我们可以采用termius的方法,直接将文件给拖到本地,也可以采用AutoDL的方法来实现。

AutoDL方法实现

记得我们一开始存放的网盘吗,我们可以从网盘里取东西,当然也可以往里面放东西,因此我们可以在程序结束时,将生成的东西给cp到网盘里面,这样我们就可以直接在控制台通过浏览器将文件下载下来(提示,服务器在运行的时候也可以这样做)。其次,我们可以通过保存镜像的方法来保存我们整个系统文件(包括环境和所有文件),保存下来的镜像下次创建服务器可以重复选择,也就是说,新创建的服务器仍然包含这次运行的文件。

AutoDL

7.总结

这篇文章带大家大致学习怎么使用远程服务器进行模型的训练,以及如何后台保持程序,和保存训练数据。相信大伙儿在看完这篇文章后已经学会了吧。如果这篇文章有帮助到你,希望大家给我一个小小的关注,点赞和收藏,谢谢大家了!


有兴趣的小伙伴添加下方名片获取更多资源

AutoDL


本文转载自: https://blog.csdn.net/BluErroR/article/details/134498121
版权归原作者 WanHeng WyattVan 所有, 如有侵权,请联系我们删除。

“SSH?Termius?一篇文章教你使用远程服务器训练!”的评论:

还没有评论