你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure Stack Edge Pro GPU 设备的 GPU 虚拟机
适用范围:Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Azure Stack Edge Pro GPU 设备上的 GPU 加速工作负载需要 GPU VM(虚拟机)。 本文概述了 GPU VM,包括受支持的 OS、GPU 驱动程序和 VM 大小。 还讨论了用于 Kubernetes 群集的 GPU VM 的部署选项。
关于 GPU VM
Azure Stack Edge 设备配备了 1 个或 2 个 Nvidia 的 Tesla T4 或 Tensor Core A2 GPU。 要在这些设备上部署 GPU 加速的 VM 工作负载,请使用 GPU 优化的 VM 大小。 所选的 GPU VM 应与 Azure Stack Edge 设备上的 GPU 品牌相匹配。 有关详细信息,请参阅受支持的 N 系列 GPU 优化 VM。
要利用 Azure N 系列 VM 的 GPU 功能,必须安装 Nvidia GPU 驱动程序。 Nvidia GPU 驱动程序扩展可以安装适当的 Nvidia CUDA 或 GRID 驱动程序。 可以使用模板或通过 Azure 门户安装 GPU 扩展。
可以在部署 VM 后使用 Azure 资源管理器模板来安装和管理扩展。 在 Azure 门户中,你可以在部署 VM 时或之后安装 GPU 扩展;有关说明,请参阅在 Azure Stack Edge 设备上部署 GPU VM。
如果你的设备配置了 Kubernetes 群集,请确保在部署 GPU VM 之前查看 Kubernetes 群集的部署注意事项。
支持的 OS 和 GPU 驱动程序
适用于 Windows 和 Linux 的 Nvidia GPU 驱动程序扩展支持以下 OS 版本。
适用于 Windows 的 GPU 扩展支持的 OS
此扩展支持以下操作系统 (OS)。 其他版本可能也有效,但尚未在 Azure Stack Edge 设备上运行的 GPU VM 上对这些版本进行内部测试。
分发 | 版本 |
---|---|
Windows Server 2019 | 核心 |
Windows Server 2016 | 核心 |
适用于 Linux 的 GPU 扩展支持的 OS
此扩展支持以下 OS 发行版,具体取决于特定 OS 版本对驱动程序的支持。 其他版本可能也有效,但尚未在 Azure Stack Edge 设备上运行的 GPU VM 上对这些版本进行内部测试。
分发 | 版本 |
---|---|
Red Hat Enterprise Linux | 7.4 |
注意
Ubuntu 18.04 LTS GPU 扩展已弃用。 在 Azure Stack Edge 设备上运行的 Ubuntu 18.04 GPU VM 上不再支持 GPU 扩展。 如果计划使用 Ubuntu 版本 18.04 LTS 发行版,请参阅 CUDA Toolkit 12.1 Update 1 下载的手动 GPU 驱动程序安装步骤。 安装之前,可能需要下载 CUDA 签名密钥。 有关安装签名密钥的示例,请参阅排查 Azure Stack Edge Pro GPU 上的 GPU VM 的 GPU 扩展问题。
GPU VM 部署
可以通过 Azure 门户或使用 Azure 资源管理器模板部署 GPU VM。 在创建 VM 后安装 GPU 扩展。
门户:在 Azure 门户中,可以在创建 VM 时快速安装 GPU 扩展,或在部署 VM 后执行此操作。
GPU VM 和 Kubernetes
在设备上部署 GPU VM 之前,如果设备上已配置 Kubernetes,请了解以下注意事项。
对于使用 1 个 GPU 的设备:
在设备上创建 GPU VM,然后配置 Kubernetes:在这种情况下,创建 GPU VM 和配置 Kubernetes 均能成功。 在这种情况下,Kubernetes 将无法访问 GPU。
在设备上配置 Kubernetes,然后创建 GPU VM:在这种情况下,Kubernetes 将回收设备上的 GPU,且创建 VM 将失败,因为没有可用的 GPU 资源。
对于使用 2 个 GPU 的设备
在设备上创建 GPU VM,然后配置 Kubernetes:在这种情况下,你创建的 GPU VM 将回收设备上的一个 GPU,且配置 Kubernetes 将成功,并回收剩余的一个 GPU。
在设备上创建两个 GPU VM,然后配置 Kubernetes:在这种情况下,两个 GPU VM 将回收设备上的两个 GPU,并且 Kubernetes 配置成功,没有 GPU。
在设备上配置 Kubernetes,然后创建 GPU VM:在这种情况下,Kubernetes 将回收设备上的两个 GPU,且创建 VM 将失败,因为没有可用的 GPU 资源。