0


Ubuntu server 20.04 安装nvidia驱动和cuda

参考文章:【2022新教程】Ubuntu server 20.04如何安装nvidia驱动和cuda-解决服务器ssh一段时间后连不上的问题 - Lukea - 博客园 (cnblogs.com)

1 安装nvidia驱动

1.1 查看是否安装了gcc

gcc -v

若没有安装,则输入下面的命令,直接把包括gcc在内很多开发工具包一同安装

sudo apt-get install build-essential

1.2 禁用nouveau驱动

编辑 /etc/modprobe.d/blacklist-nouveau.conf 文件,添加以下内容:

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

关闭nouveau:

echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf

完成后,重新生成内核并重启:

sudo update-initramfs -u
sudo reboot

重启后,执行:

lsmod | grep nouveau

如果没有屏幕输出,说明禁用nouveau成功。否则,应重新执行第1.2小节

1.3 安装驱动

使用命令

ubuntu-drivers devices

获取可用驱动信息,如果命令不存在自己安装一下。
输出为(不同电脑依据配置输出不同,我这里还有报错但是不影响)

从上述信息中找到driver,后面找recommend,发现了系统推荐安装的驱动程序nvidia-driver-550-server-open。这里考虑到是ubuntu server,所以我最终选择了nvidia-driver-470-server。
执行命令安装驱动:

sudo apt install nvidia-driver-550-server-open

等待安装完成后,执行

nvidia-smi

可以输出gpu监控界面,则驱动安装成功!从监控信息中我们可以看到cuda版本是12.4,所以下面我们安装cuda toolkit的时候也是安装这个版本的。

nvidia-smi
Thu Apr  4 21:30:29 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3060        Off |   00000000:01:00.0  On |                  N/A |
|  0%   33C    P8              9W /  170W |      57MiB /  12288MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A       951      G   /usr/lib/xorg/Xorg                             36MiB |
|    0   N/A  N/A      1186      G   /usr/bin/gnome-shell                            6MiB |
+-----------------------------------------------------------------------------------------+

如果

nvidia-smi 出现如下情况:

WIDIA-SMI has failed because it couldn't comunicate with the NvIDIA driver, Make sure that the latest NviDIA driver is installed and runing.

而且通过 ll /usr/src/ 检查驱动已经成功安装:

有可能是需要重新启动才能正常连接。

2 安装cuda

https://developer.nvidia.com/cuda-toolkit-archive中找到相应的版本。这里我们选用12.4的版本,采用runfile的安装形式。
直接输入以下命令:

sudo wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run

sudo sh cuda_12.4.0_550.54.14_linux.run

注意,当提醒你已经安装了driver的时候,直接continue。当选择安装内容的时候,务必把driver前面的x取消掉,因为我们已经安装了驱动!!!

安装完成后,会有如下警告:

===========
= Summary =
===========

Driver:   Not Selected
Toolkit:  Installed in /usr/local/cuda-12.4/

Please make sure that
-   PATH includes /usr/local/cuda-12.4/bin
-   LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.4/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 550.00 is required for CUDA 12.4 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
sudo <CudaInstaller>.run --silent --driver

Logfile is /var/log/cuda-installer.log

这是正常的,因为安装的时候没有选择驱动,随后需要将环境变量进行配置。

export PATH=/usr/local/cuda-11.8/bin:$PATH  
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda

使用nvcc -V查看CUDA版本 ,能显示就表示成功了。

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Tue_Feb_27_16:19:38_PST_2024
Cuda compilation tools, release 12.4, V12.4.99
Build cuda_12.4.r12.4/compiler.33961263_0

如果使用nvcc -V时,出现 Command 'nvcc' not found, but can be installed with:
sudo apt install nvidia-cuda-toolkit,可能是环境变量没有配置到位。

1、 查看cuda的bin目录下是否有nvcc:

cd /usr/local/cuda/bin

2、 如果存在,直接将cuda路径加入系统路径即可:

#进入配置文件
vim ~/.bashrc

将如下环境变量添加到文件末尾

export PATH=/usr/local/cuda-版本/bin:$PATH  
export LD_LIBRARY_PATH=/usr/local/cuda-版本/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda

3 、更新配置文件即可:

source ~/.bashrc
标签: ubuntu linux 运维

本文转载自: https://blog.csdn.net/weixin_56450431/article/details/137383620
版权归原作者 呀呀丫丫丫 所有, 如有侵权,请联系我们删除。

“Ubuntu server 20.04 安装nvidia驱动和cuda”的评论:

还没有评论