在Azure虚拟机上搭建GPU PyTorch环境的完整指南

你好!欢迎来到本教程,我们将一步一步教你如何在Azure虚拟机上搭建一个强大的GPU PyTorch环境,以便进行深度学习任务。在这个教程中,我们将涵盖以下主题:

1. 引言

在深度学习和机器学习中,GPU是必不可少的工具,它可以大大加速训练过程。在Azure虚拟机上搭建GPU PyTorch环境可以让你利用云计算的强大性能来进行深度学习任务,而不必购买昂贵的硬件。

2. 想定的硬件和操作系统环境

在开始之前,让我们先了解一下我们的想定硬件和操作系统环境:

  • 虚拟机型号:Standard_NC4as_T4_v3
  • 操作系统:Ubuntu 20.04 x64 Gen2
  • GPU:NVIDIA Tesla T4
  • CUDA版本:11.6

请注意,本教程中的步骤是针对上述硬件和环境进行的,如果你的环境不同,可能需要做一些调整。

3. 使用之前检查GPU信息

在开始安装之前,让我们首先检查一下你的GPU信息,确保你的虚拟机中有NVIDIA GPU。

$ lspci | grep -i nvidia

如果一切正常,你应该会看到类似以下的输出:

0001:00:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)

接下来,我们可以检查当前系统中是否已经安装了NVIDIA驱动和CUDA。

$ dpkg -l | grep nvidia
$ dpkg -l | grep cuda

如果已经安装了其他版本的驱动或CUDA,我们将在后面的步骤中进行卸载。

4. 卸载现有的CUDA和NVIDIA驱动

为了避免版本冲突,我们需要卸载当前系统中可能存在的CUDA和NVIDIA驱动。

$ sudo apt-get --purge remove nvidia-*
$ sudo apt-get --purge remove cuda-*

这将卸载系统中的所有NVIDIA驱动和CUDA版本。

5. 安装NVIDIA驱动

接下来,我们将安装适用于我们的GPU的NVIDIA驱动。首先,让我们查找适合的驱动版本。

$ sudo apt install ubuntu-drivers-common
$ sudo ubuntu-drivers devices

从输出中,找到标记为“recommended”的NVIDIA驱动版本,例如“nvidia-driver-525”,然后进行安装。

$ sudo add-apt-repository ppa:graphics-drivers/ppa
$ sudo apt update
$ sudo apt install nvidia-driver-525

完成安装后,重新启动虚拟机。

$ sudo reboot

重新登录后,你可以使用以下命令来验证NVIDIA驱动是否成功安装。

$ nvidia-smi

如果一切正常,你将看到与你的GPU相关的信息。

6. 安装CUDA

现在,让我们安装CUDA,这是深度学习中必不可少的库。首先,我们需要从NVIDIA官网获取适合我们的CUDA安装命令。选择正确的CUDA版本和操作系统,然后执行以下命令。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
$ sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
$ wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda-repo-ubuntu2004-11-6-local_11.6.0-510.39.01-1_amd64.deb
$ sudo dpkg -i cuda-repo-ubuntu2004-11-6-local_11.6.0-510.39.01-1_amd64.deb
$ sudo apt-key add /var/cuda-repo-ubuntu2004-11-6-local/7fa2af80.pub
$ sudo apt-get update
$ sudo apt-get -y install cuda-11-6

完成安装后,需要将CUDA的路径添加到环境变量中。编辑你的.bashrc文件并添加以下行:

export PATH="/usr/local/cuda/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"

然后使用以下命令使更改生效:

$ source ~/.bashrc

7. 安装cuDNN

cuDNN是一个用于深度学习的GPU加速库,让我们来安装它。首先,你需要从NVIDIA官方网站下载cuDNN的安装包。你需要注册并登录以获取下载权限。

下载完安装包后,将它传输到你的虚拟机上,然后执行以下步骤:

$ sudo dpkg -i cudnn-local-repo-ubuntu2004-8.7.0.84_1.0-1_amd64.deb
$ sudo cp /var/cudnn-local-repo-ubuntu2004-8.7.0.84/cudnn-local-A3837CDF-keyring.gpg /usr/share/keyrings/
$ cd /var/cudnn-local-repo-ubuntu2004-8.7.0.84/
$ sudo dpkg -i libcudnn8_8.7.0.84-1+cuda11.8_amd64.deb
$ sudo dpkg -i libcudnn8-dev_8.7.0.84-1+cuda11.8_amd64.deb
$ sudo dpkg -i libcudnn8-samples_8.7.0.84-1+cuda11.8_amd64.deb

请确保按照上述顺序执行所有

步骤,以防止出现错误。

8. 验证cuDNN

现在,让我们验证cuDNN是否已经成功安装。首先,重新启动你的虚拟机以确保所有更改生效。

$ sudo reboot

再次登录虚拟机并激活之前创建的conda环境(如果你使用的是conda)。

$ conda activate torch

接下来,运行Python并执行以下命令来验证cuDNN:

import torch
torch.cuda.is_available()  # 检查CUDA是否可用
torch.cuda.device_count()    # 查看可用的GPU数量

如果一切正常,你将看到CUDA可用,并且你的GPU数量。

9. 安装PyTorch

最后,让我们安装PyTorch,这是深度学习的核心库之一。你可以根据你的需求选择不同的PyTorch版本和安装命令。你可以在PyTorch官方网站上获取适合你的版本和命令。

执行以下命令来安装PyTorch(请注意,这是一个示例命令,你应该根据你的需求选择正确的版本):

$ pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116

10. 结束语

恭喜你,你已经成功在Azure虚拟机上搭建了一个强大的GPU PyTorch环境!现在你可以开始进行深度学习任务了。请记住,本教程中的步骤是根据特定硬件和环境定制的,如果你的环境有所不同,可能需要做一些适应性调整。

希望这个教程对你有所帮助,祝你在深度学习的旅程中取得成功!

本文由作者 王大神 原创发布于 大神网的AI博客。

转载请注明作者:王大神

原文出处:在Azure虚拟机上搭建GPU PyTorch环境的完整指南

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2023年9月17日
下一篇 2023年9月17日

相关推荐

  • 2023秋季电脑选择:Mac还是PC?

    引言 在2023年的秋季,随着科技的不断进步和个人需求的变化,选择一台新电脑成为了一项重要的决策。对于很多人来说,最大的选择通常在Mac和PC之间。本文将探讨这两个选项,并为您提供一些参考意见,以便您做出明智…

    2023年9月7日
    00
  • 解决Ubuntu中显卡驱动问题:nvidia-settings是否正确安装?

    在计算机领域,有一种常见的情景是用户在安装完显卡驱动后,不确定是否一切都设置正确。这种情况也发生在一位名叫小弟的用户身上。小弟使用的是Kubuntu 18.04,显卡是Nvidia 750Ti。尽管他在终端中输入了一些命令来…

    2023年10月30日
    00
  • Ubuntu 20.04 Wine 安装配置教程 FAQ

    Ubuntu 20.04是一款流行的Linux发行版,而Wine是一款允许在Linux系统上运行Windows应用程序的工具。本教程将详细介绍如何在Ubuntu 20.04上安装和配置Wine,并回答一些常见问题。 二、安装Wine 在开始安装Wine之前,…

    2023年12月27日
    00
  • Ubuntu 20.04配置静态IP地址

    在现代网络环境中,大多数设备都是通过动态主机配置协议(DHCP)自动获取IP地址的。然而,在某些情况下,如需要进行端口转发、运行媒体服务器或需要稳定的本地网络连接时,配置静态IP地址是必不可少的。本教程将向…

    2023年8月25日
    00
  • 深度学习与自然语言处理:LangChain、Deep Lake和OpenAI实现问答系统

    深度学习和自然语言处理领域一直是人工智能中备受关注的话题。如何构建一个强大的问答系统一直是研究人员和工程师们的追求。本教程将向您展示如何使用LangChain、Deep Lake和OpenAI实现一个强大的问答系统,让您的…

    2023年10月14日
    00
  • Ubuntu 20.04上配置机器学习环境:CUDA和NVIDIA驱动

    在当今世界,机器学习已经成为了一个炙手可热的领域,它正在不断地改变着我们的生活和工作方式。如果你是一名机器学习爱好者或专业从业者,那么你一定会需要一个强大的计算机来运行深度学习模型。本文将介绍如何在U…

    2023年10月19日
    00
  • Ubuntu 20.04 网络问题排查与解决指南:从基础到高级的故障排除

    在使用Ubuntu 20.04操作系统时,网络连接问题是一项常见而烦扰人的难题。无论您是使用有线连接还是无线连接,都可能在日常使用中遇到各种网络困扰。本指南将从多个角度出发,为您提供从基础到高级的排查和解决方案…

    2023年9月3日
    00
  • 探索AI如何玩转文本情感分析:从心动到数据

    起始故事:一封带着情感波动的电子邮件 想象一下,你刚从公司的邮箱里收到一封员工的匿名反馈。你期待看到的是一些有关工作环境或薪资的建议,但这一次,你看到了一封充满激动情感的信件。 有的句子带着明显的愤怒…

    2023年9月24日
    00
  • Stable Diffusion同时使用多张显卡配置教程

    曾经有一位名叫小明的研究者,他充满了激情,致力于解决复杂的人工智能问题。然而,他很快发现,单张显卡的计算能力在处理大规模深度学习任务时变得不够。于是,他决定探索如何同时使用多张显卡来提高计算性能。通…

    2023年8月22日
    02
  • 教程:加速你的深度学习训练 – 使用? Accelerate

    你是否曾经为在不同设备上运行PyTorch训练脚本而感到烦恼?是否厌烦了编写和维护与多GPU/TPU/fp16相关的样板代码?如果是的话,那么你来对地方了。本教程将介绍如何使用? Accelerate来轻松、高效、灵活地加速你的深…

    2023年9月19日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注