1、查看gpu内存信息nvidia-smi
要在Linux系统上查看NVIDIA GPU的使用情况,您可以使用
nvidia-smi
命令。这是一个NVIDIA提供的命令行工具,能够显示GPU的各种状态信息,包括但不限于使用率、内存使用情况、温度、时钟速度以及运行在GPU上的进程。
打开终端,只需输入以下命令并按回车执行:
nvidia-smi
执行后,您将看到类似以下的输出信息:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI xxx.xxxx | Driver Version: xxx.xx | CUDA Version: xxx.xx |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 1080 Off | 00000000:01:00.0 On | N/A |
| 29% 46C P8 17W / 250W | 506MiB / 8119MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 1234 G /usr/lib/xorg/Xorg 20MiB |
| 0 4567 G /usr/bin/gnome-shell 147MiB |
| 0 12345 C python 120MiB |
+-----------------------------------------------------------------------------+
此输出提供了每块GPU的详细状态,包括GPU编号、名称、当前功耗、温度、利用率、已分配的显存和总显存等。同时,底部的“Processes”部分还会列出占用GPU资源的各个进程及其显存使用情况。
如果您想更频繁地查看GPU状态,比如每秒查看一次,可以结合
watch
命令使用:
watch -n 1 nvidia-smi
这将会每秒(
-n 1
)刷新一次
nvidia-smi
的输出。
2、nvidia-smi执行后结果解析
首部信息
NVIDIA-SMI: NVIDIA System Management Interface 的版本。
Driver Version: 安装的NVIDIA驱动程序版本。
CUDA Version: 系统上安装的CUDA版本。
GPU信息
GPU: GPU编号,从0开始计数。
Name: GPU的型号,如GeForce GTX 1080。
Persistence-M: 持久模式状态,Off表示非持久模式,On表示持久模式。
Bus-Id: GPU的PCI Express总线ID。
Disp.A: 显示器是否连接到该GPU上,On表示有显示器连接。
Volatile Uncorr. ECC: 是否启用了易失性未校验ECC错误检查,N/A通常表示不适用或未启用。
Fan: GPU风扇转速百分比。
Temp: GPU当前温度(摄氏度)。
Perf: 性能状态,P8表示低功耗状态。
Pwr:Usage/Cap: 当前功率使用量/最大功率容量,如17W / 250W。
Memory-Usage: 当前显存使用量/总显存大小,如506MiB / 8119MiB。
GPU-Util: GPU利用率百分比。
Compute M.: 计算模式,默认情况下可能显示为Default。
进程信息
PID: 进程ID。
Type: 进程类型,G表示图形进程,C表示计算进程。
Process name: 占用GPU资源的进程名称。
Usage: 该进程占用的显存大小。
综上,这个输出提供了关于GPU硬件状态、功耗、温度、利用率以及哪些进程正在使用GPU资源的详细概览。这对于监控GPU的健康状况、性能瓶颈定位以及资源管理非常有用。
版权归原作者 frostjsy 所有, 如有侵权,请联系我们删除。