你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Stack Edge Pro GPU 设备的 GPU 虚拟机

适用范围:适用于 Pro - GPU SKUAzure Stack Edge Pro - GPU对于 Pro 2 SKU 是必需的Azure Stack Edge Pro 2对于 Pro R SKU 是必需的Azure Stack Edge Pro R

Azure Stack Edge Pro GPU 设备上的 GPU 加速工作负载需要 GPU VM(虚拟机)。 本文概述了 GPU VM,包括受支持的 OS、GPU 驱动程序和 VM 大小。 还讨论了用于 Kubernetes 群集的 GPU VM 的部署选项。

关于 GPU VM

Azure Stack Edge 设备配备了 1 个或 2 个 Nvidia 的 Tesla T4 或 Tensor Core A2 GPU。 要在这些设备上部署 GPU 加速的 VM 工作负载,请使用 GPU 优化的 VM 大小。 所选的 GPU VM 应与 Azure Stack Edge 设备上的 GPU 品牌相匹配。 有关详细信息,请参阅受支持的 N 系列 GPU 优化 VM

要利用 Azure N 系列 VM 的 GPU 功能,必须安装 Nvidia GPU 驱动程序。 Nvidia GPU 驱动程序扩展可以安装适当的 Nvidia CUDA 或 GRID 驱动程序。 可以使用模板或通过 Azure 门户安装 GPU 扩展

可以在部署 VM 后使用 Azure 资源管理器模板来安装和管理扩展。 在 Azure 门户中,你可以在部署 VM 时或之后安装 GPU 扩展;有关说明,请参阅在 Azure Stack Edge 设备上部署 GPU VM

如果你的设备配置了 Kubernetes 群集,请确保在部署 GPU VM 之前查看 Kubernetes 群集的部署注意事项

支持的 OS 和 GPU 驱动程序

适用于 Windows 和 Linux 的 Nvidia GPU 驱动程序扩展支持以下 OS 版本。

适用于 Windows 的 GPU 扩展支持的 OS

此扩展支持以下操作系统 (OS)。 其他版本可能也有效,但尚未在 Azure Stack Edge 设备上运行的 GPU VM 上对这些版本进行内部测试。

分发 版本
Windows Server 2019 核心
Windows Server 2016 核心

适用于 Linux 的 GPU 扩展支持的 OS

此扩展支持以下 OS 发行版,具体取决于特定 OS 版本对驱动程序的支持。 其他版本可能也有效,但尚未在 Azure Stack Edge 设备上运行的 GPU VM 上对这些版本进行内部测试。

分发 版本
Red Hat Enterprise Linux 7.4

注意

Ubuntu 18.04 LTS GPU 扩展已弃用。 在 Azure Stack Edge 设备上运行的 Ubuntu 18.04 GPU VM 上不再支持 GPU 扩展。 如果计划使用 Ubuntu 版本 18.04 LTS 发行版,请参阅 CUDA Toolkit 12.1 Update 1 下载的手动 GPU 驱动程序安装步骤。 安装之前,可能需要下载 CUDA 签名密钥。 有关安装签名密钥的示例,请参阅排查 Azure Stack Edge Pro GPU 上的 GPU VM 的 GPU 扩展问题

GPU VM 部署

可以通过 Azure 门户或使用 Azure 资源管理器模板部署 GPU VM。 在创建 VM 后安装 GPU 扩展。

GPU VM 和 Kubernetes

在设备上部署 GPU VM 之前,如果设备上已配置 Kubernetes,请了解以下注意事项。

对于使用 1 个 GPU 的设备:

  • 在设备上创建 GPU VM,然后配置 Kubernetes:在这种情况下,创建 GPU VM 和配置 Kubernetes 均能成功。 在这种情况下,Kubernetes 将无法访问 GPU。

  • 在设备上配置 Kubernetes,然后创建 GPU VM:在这种情况下,Kubernetes 将回收设备上的 GPU,且创建 VM 将失败,因为没有可用的 GPU 资源。

对于使用 2 个 GPU 的设备

  • 在设备上创建 GPU VM,然后配置 Kubernetes:在这种情况下,你创建的 GPU VM 将回收设备上的一个 GPU,且配置 Kubernetes 将成功,并回收剩余的一个 GPU。

  • 在设备上创建两个 GPU VM,然后配置 Kubernetes:在这种情况下,两个 GPU VM 将回收设备上的两个 GPU,并且 Kubernetes 配置成功,没有 GPU。

  • 在设备上配置 Kubernetes,然后创建 GPU VM:在这种情况下,Kubernetes 将回收设备上的两个 GPU,且创建 VM 将失败,因为没有可用的 GPU 资源。

后续步骤