適用於 Azure Stack Edge Pro GPU 裝置的 GPU 虛擬機器
適用於:Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Azure Stack Edge Pro GPU 裝置上的 GPU 加速工作負載需要 GPU VM(虛擬機)。 本文提供 GPU VM 的概觀,包括支援的 OS、GPU 驅動程式和 VM 大小。 也會探討搭配 Kubernetes 叢集使用的 GPU VM 部署選項。
關於 GPU VM
您的 Azure Stack Edge 裝置可能會搭載 1 或 2 個 NVIDIA 的 Tesla T4 或 Tensor Core A2 GPU。 若要在這些裝置上部署 GPU 加速的 VM 工作負載,請使用 GPU 最佳化的 VM 大小。 選擇的 GPU VM 應該與 Azure Stack Edge 裝置上的 GPU 組成相符。 如需詳細資訊,請參閱支援的 N 系列 GPU 最佳化 VM。
若要利用 Azure N 系列 VM 的 GPU 功能,您必須安裝 NVIDIA GPU 驅動程式。 NVIDIA GPU 驅動程式延伸模組會安裝適當的 NVIDIA CUDA 或 GRID 驅動程式。 您可以使用範本或透過 Azure 入口網站來安裝 GPU 延伸模組。
您可以在 VM 部署之後,使用 Azure Resource Manager 範本來安裝和管理延伸模組。 在 Azure 入口網站中,您可以在部署 VM 期間或之後安裝 GPU 延伸模組;如需指示,請參閱在 Azure Stack Edge 裝置上部署 GPU VM。
如果您的裝置已設定 Kubernetes 叢集,請務必先檢閱 Kubernetes 叢集的 部署考慮,再部署 GPU VM。
支援的 OS 和 GPU 驅動程式
適用於 Windows 和 Linux 的 NVIDIA GPU 驅動程式延伸模組支援下列作業系統版本。
GPU 延伸模組支援的 Windows OS
此延伸模組目前支援下列 64 位元作業系統 (OS)。 其他版本可能正常運作,但尚未在 Azure Stack Edge 裝置上執行的 GPU VM 內部測試。
發佈 | 版本 |
---|---|
Windows Server 2019 | 核心 |
Windows Server 2016 | 核心 |
GPU 延伸模組支援的 Linux OS
此擴充功能支援下列OS散發版本,視特定OS版本的驅動程序支援而定。 其他版本可能正常運作,但尚未在 Azure Stack Edge 裝置上執行的 GPU VM 內部測試。
發佈 | 版本 |
---|---|
Red Hat Enterprise Linux | 7.4 |
注意
Ubuntu 18.04 LTS GPU 擴充功能已被取代。 在 Azure Stack Edge 裝置上執行的 Ubuntu 18.04 GPU VM 不再支援 GPU 延伸模組。 如果您打算使用 Ubuntu 18.04 版 LTS 散發版本,請參閱 CUDA Toolkit 12.1 Update 1 下載中的手動 GPU 驅動程式安裝步驟。 安裝前您可能需要下載 CUDA 簽署金鑰。 如需安裝簽署密鑰的範例,請參閱 針對 Azure Stack Edge Pro GPU 上的 GPU VM 的 GPU 擴充功能問題進行疑難解答。
GPU VM 部署
您可以透過 Azure 入口網站或使用 Azure Resource Manager 範本來部署 GPU VM。 建立 VM 之後,就會安裝 GPU 延伸模組。
範本:使用 Azure Resource Manager 範本,您可以建立 VM,然後安裝 GPU 延伸模組。
GPU VM 和 Kubernetes
在裝置上部署 GPU VM 之前,如若是裝置上設定了 Kubernetes,請檢閱下列考量。
針對 1-GPU 裝置:
在裝置上建立 GPU VM,然後設定 Kubernetes:在此案例中,GPU VM 建立和 Kubernetes 設定都會成功。 在此情況下,Kubernetes 將無法存取 GPU。
在裝置上設定 Kubernetes,然後建立 GPU VM:在此案例中,Kubernetes 會宣告裝置上的 GPU,而 VM 建立將會失敗,因為沒有可用的 GPU 資源。
針對 2-GPU 裝置
在裝置上建立 GPU VM,然後設定 Kubernetes:在此案例中,您建立的 GPU VM 會在裝置上宣告一個 GPU,且 Kubernetes 設定也會成功,並宣告剩餘的一個 GPU。
在您的裝置上建立兩個 GPU VM,後面接著 Kubernetes 組態:在此案例中,兩個 GPU VM 會宣告裝置上的兩個 GPU,且 Kubernetes 已成功設定沒有 GPU。
在裝置上設定 Kubernetes,然後建立 GPU VM:在此案例中,Kubernetes 會宣告裝置上的 GPU 和 VM 建立都會失敗,因為沒有可用的 GPU 資源。
下一步
- 了解如何部署 GPU VM。
- 了解如何在裝置上執行的 GPU VM 中安裝 GPU 延伸模組。