0


PyTorch中查看GPU使用情况以及一些重要函数

简介

pytorch多卡相应内容学习总结,本着勤能补拙的态度,希望能够更好地提升自我能力。

1. 服务器信息查询

  1. CPU查询
  1. # 查看CPU信息
  2. cat /proc/cpuinfo | grep "physical id" | uniq | wc -l #查看CPU个数
  3. cat /proc/cpuinfo | grep "cpu cores" | uniq #查看CPU核数
  4. cat /proc/cpuinfo | grep 'model name' |uniq #查看CPU型号
  1. GPU查询
  1. # 查看GPU信息
  2. sudo dpkg --list | grep nvidia-* # 查看驱动版本
  3. lshw -c video #查看显卡型号
  4. $ lspci | grep -i nvidia # 可以查询所有nvidia显卡
  5. $ lspci -v -s [显卡编号] # 可以查看显卡具体属性
  6. $ nvidia-smi # 可以查看显卡的显存利用率
  7. $ cat /etc/issue # 查看Linux发布版本号
  8. $ lsb_release -a # 查看Linux发布版本号
  9. $ uname -sr # 查看内核版本号
  10. $ uname -a # 查看内核版本号
  1. lspci

是一种实用程序,用于在系统中显示有关pci总线的信息以及连接到它们的设备。

  1. CUDA版本
  1. nvidia-smi # 右上角CUDA Version,但可能不准确,推荐使用下面命令
  2. nvcc -V

在这里插入图片描述

  1. nvcc -V

查询为主

  1. 实时查看nvidia-smi
  1. nvidia-smi -l 1 # 以每秒刷新一次进行信息,结果为1s一次输出nvidia-smi,不流畅,建议使用吓一条命令
  2. watch -n 1 nvidia-smi # 会在同一位置处1s更新窗口信息

2. torch.cuda

  1. 显卡信息查看
  1. torch.cuda.is_available()# 查看是否有可用GPU
  2. torch.cuda.device_count()# 查看GPU数量
  3. torch.cuda.get_device_capability(device)# 查看指定GPU容量
  4. torch.cuda.get_device_name(device)# 查看指定GPU名称
  5. torch.cuda.empty_cache()# 清空程序占用的GPU资源
  6. torch.cuda.manual_seed(seed)# 设置随机种子
  7. torch.cuda.manual_seed_all(seed)# 设置随机种子
  8. torch.cuda.get_device_properties(i)# i为第几张卡,显示该卡的详细信息

平时在模型中可以增肌信息输出

  1. s = f'MODEL 🚀 torch {torch.__version__} '
  2. n = torch.cuda.device_count()
  3. space = ' ' * (len(s)+1)
  4. for d in range(n):
  5. p = torch.cuda.get_device_properties(d)
  6. s += f"{'' if d == 0 else space}CUDA:{d} ({p.name}, {p.total_memory / 1024 ** 2}MB)\n" # bytes to MB
  7. print(s)

效果
在这里插入图片描述

  1. 指定使用显卡 通过os.environ["CUDA_VISIBLE_DEVICES"]指定所要使用的显卡:
  1. import os
  2. os.environ['CUDA_VISIBLE_DEVICES']="2,1,3,4"print("torch.cuda.device_count() {}".format(torch.cuda.device_count()))

这种设置方式,

  1. 2

号卡就变成了主卡。

  1. CUDA_VISIBLE_DEVICES

表示当前可以被python环境程序检测到的显卡。

  1. os.environ["CUDA_VISIBLE_DEVICES"] = "2,1,3,4"

进行指定使用设备,这样会修改

  1. pytorch

感受的设备编号,

  1. pytorch

感知的编号还是从

  1. device:0

开始。如上会把

  1. 2

号显卡改为

  1. device:0

  1. 1

号显卡改为

  1. device:1

如果有多个显卡,设置了

  1. os.environ["CUDA_VISIBLE_DEVICES"]

后,其他没有设置的显卡将不会在本次代码中显示。

  1. os.environ["CUDA_VISIBLE_DEVICES"]

需要设置在代码开头。

另外,使用终端也可以直接选择选择显卡,输入

  1. CUDA_VISIBLE_DEVICES=0 python train.py

也可以

一些冷门知识补充(自取)

http://t.csdn.cn/mQH9y


本文转载自: https://blog.csdn.net/frighting_ing/article/details/129541413
版权归原作者 Fighting_1997 所有, 如有侵权,请联系我们删除。

“PyTorch中查看GPU使用情况以及一些重要函数”的评论:

还没有评论