0


查看gpu内存nvidia-smi

1、查看gpu内存信息nvidia-smi

要在Linux系统上查看NVIDIA GPU的使用情况,您可以使用

nvidia-smi

命令。这是一个NVIDIA提供的命令行工具,能够显示GPU的各种状态信息,包括但不限于使用率、内存使用情况、温度、时钟速度以及运行在GPU上的进程。

打开终端,只需输入以下命令并按回车执行:

nvidia-smi

执行后,您将看到类似以下的输出信息:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI xxx.xxxx | Driver Version: xxx.xx | CUDA Version: xxx.xx                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
| 0  GeForce GTX 1080    Off  | 00000000:01:00.0  On |                  N/A |
| 29%   46C    P8    17W / 250W |    506MiB /  8119MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1234    G   /usr/lib/xorg/Xorg                             20MiB |
|    0      4567    G   /usr/bin/gnome-shell                           147MiB |
|    0     12345    C   python                                         120MiB |
+-----------------------------------------------------------------------------+

此输出提供了每块GPU的详细状态,包括GPU编号、名称、当前功耗、温度、利用率、已分配的显存和总显存等。同时,底部的“Processes”部分还会列出占用GPU资源的各个进程及其显存使用情况。

如果您想更频繁地查看GPU状态,比如每秒查看一次,可以结合

watch

命令使用:

watch -n 1 nvidia-smi

这将会每秒(

-n 1

)刷新一次

nvidia-smi

的输出。

2、nvidia-smi执行后结果解析

首部信息
NVIDIA-SMI: NVIDIA System Management Interface 的版本。
Driver Version: 安装的NVIDIA驱动程序版本。
CUDA Version: 系统上安装的CUDA版本。
GPU信息
GPU: GPU编号,从0开始计数。
Name: GPU的型号,如GeForce GTX 1080。
Persistence-M: 持久模式状态,Off表示非持久模式,On表示持久模式。
Bus-Id: GPU的PCI Express总线ID。
Disp.A: 显示器是否连接到该GPU上,On表示有显示器连接。
Volatile Uncorr. ECC: 是否启用了易失性未校验ECC错误检查,N/A通常表示不适用或未启用。
Fan: GPU风扇转速百分比。
Temp: GPU当前温度(摄氏度)。
Perf: 性能状态,P8表示低功耗状态。
Pwr:Usage/Cap: 当前功率使用量/最大功率容量,如17W / 250W。
Memory-Usage: 当前显存使用量/总显存大小,如506MiB / 8119MiB。
GPU-Util: GPU利用率百分比。
Compute M.: 计算模式,默认情况下可能显示为Default。
进程信息
PID: 进程ID。
Type: 进程类型,G表示图形进程,C表示计算进程。
Process name: 占用GPU资源的进程名称。
Usage: 该进程占用的显存大小。
综上,这个输出提供了关于GPU硬件状态、功耗、温度、利用率以及哪些进程正在使用GPU资源的详细概览。这对于监控GPU的健康状况、性能瓶颈定位以及资源管理非常有用。
标签: 人工智能

本文转载自: https://blog.csdn.net/u013069552/article/details/140519567
版权归原作者 frostjsy 所有, 如有侵权,请联系我们删除。

“查看gpu内存nvidia-smi”的评论:

还没有评论