準備 Azure 本地 GPU 設備

發行項
03/08/2025

適用於：Azure Local 2311.2 和更新版本

本文說明如何在 Azure 本機實例上準備圖形處理單位（GPU），以在 Azure Arc 所啟用的 Arc 虛擬機（VM）和 AKS 上執行的計算密集型工作負載。GPU 用於計算密集型工作負載，例如機器學習和深度學習。

在 Azure 的本機環境中連接 GPU

您可以透過以下兩種方式之一來在 Azure Local 上連接您的 GPU：

離散裝置指派（DDA） - 可讓您將實體 GPU 奉獻給工作負載。在 DDA 部署中，虛擬化工作負載會在原生驅動程式上執行，而且通常可以完全存取 GPU 功能。 DDA 提供最高層級的應用程式相容性和潛在效能。
GPU 分割（GPU-P） - 允許您將 GPU 分割成專用的部分區域，以與多個工作負載共享 GPU。

請考慮使用 GPU 的兩個選項之間的下列功能和支援差異：

描述	離散裝置指派	GPU 分割
GPU 資源模型	整個裝置	等分裝置
VM 密度	低（GPU 到一個 VM）	高（從一個 GPU 到多個虛擬機）
應用程式相容性	廠商提供的所有 GPU 功能 (DX 12、OpenGL、CUDA)	廠商提供的所有 GPU 功能 (DX 12、OpenGL、CUDA)
圖形處理器記憶體	GPU 支援的最大 VRAM 量	單一分割區 GPU 支援的 VRAM 上限
虛擬機中的 GPU 驅動程式	GPU 廠商驅動程式（NVIDIA）	GPU 廠商驅動程式（NVIDIA）

支援的 GPU 模型

若要查看可用的支持解決方案和 GPU 的完整清單，請參閱 Azure 本機解決方案，並在左側功能表中選取 GPU 支援 以取得選項。

NVIDIA 會使用其虛擬 GPU 軟體，分別支援其工作負載。如需詳細資訊，請參閱 Microsoft Azure 區域版 - 支援 NVIDIA GPU 與已驗證伺服器平臺。

如需 AKS 工作負載，請參閱 AKS for Arc 的 GPU。

下列 GPU 模型支援使用適用於 Arc VM 工作負載的 DDA 和 GPU-P：

NVIDIA A2
NVIDIA A16

這些額外的 GPU 型號僅限於使用 GPU-P 支援 Arc VM 工作負載。

NVIDIA A10
NVIDIA A40
NVIDIA L4
NVIDIA L40
NVIDIA L40S

主機需求

您的 Azure 本機主機必須符合下列需求：

您的系統必須支援具有 GPU 支援的 Azure 本機解決方案。若要瀏覽您的選項，請參閱 Azure 本機目錄。
您已獲得對 Azure 本機的存取權限。
您必須為系統中所有機器的 GPU 建立同質設定。有均質組態是指安裝相同品牌和型號的 GPU。
針對 GPU-P，請確定虛擬化支援和 SR-IOV 會在系統中每部電腦的 BIOS 中啟用。如果您無法識別 BIOS 中的正確設定，請連絡硬體廠商。

在每個主機上準備 GPU 驅動程式

準備和安裝每部計算機的 GPU 驅動程式的程式在 DDA 和 GPU-P 之間有些不同。請遵循適用於您情況的流程。

尋找每個主機上的 GPU

首先，請確定每部機器未安裝任何驅動程式。如果已安裝主機驅動程式，請卸載主機驅動程式並重新啟動電腦。

卸載主機驅動程式或未安裝任何驅動程序之後，請使用下列命令以系統管理員身分執行 PowerShell：

Get-PnpDevice -Status Error | fl FriendlyName, ClusterId

您應該看到 GPU 裝置呈現錯誤狀態，如範例輸出所示，該輸出列出 GPU 的易記名稱和實例識別碼 3D Video Controller。

[ASRR1N26R02U46A]: PS C:\Users\HCIDeploymentUser\Documents> Get-PnpDevice - Status Error

Status		Class			FriendlyName
------		-----			------------
Error					SD Host Controller
Error					3D Video Controller
Error					3D Video Controller
Error		USB			Unknown USB Device (Device Descriptor Request Failed)

[ASRR1N26R02U46A]: PS C:\Users\HCIDeploymentUser\Documents> Get-PnpDevice - Status Error | f1 InstanceId

InstanceId : PCI\VEN_8086&DEV_18DB&SUBSYS_7208086REV_11\3&11583659&0&E0

InstanceId : PCI\VEN_10DE&DEV_25B6&SUBSYS_157E10DE&REV_A1\4&23AD3A43&0&0010

InstanceId : PCI\VEN_10DE&DEV_25B6&SUBSYS_157E10DE&REV_A1\4&17F8422A&0&0010

InstanceId : USB\VID_0000&PID_0002\S&E492A46&0&2

使用 DDA

如果使用 DDA，請遵循此程式：

1. 停用和卸載主機的 GPU

針對 DDA，當您卸載主機驅動程式或擁有新的 Azure 本機設定時，實體 GPU 會進入錯誤狀態。您必須卸除所有 GPU 裝置才能繼續。您可以使用在上一個步驟中取得的ClusterID，透過裝置管理員或 PowerShell 停用並卸除 GPU。

$id1 = "GPU_instance_ID"
Disable-PnpDevice -ClusterId $id1 -Confirm:$false
Dismount-VMHostAssignableDevice -ClusterPath $id1 -Force

確認 GPU 已從主電腦正確卸除。 GPU 現在會處於 Unknown 狀態：

Get-PnpDevice -Status Unknown | fl FriendlyName, ClusterId

針對您系統中的每部電腦重複此程式，以準備 GPU。

2.下載並安裝風險降低驅動程式

軟體可能包括 NVIDIA Corporation 或其授權商所開發的元件。這些元件的使用是由 NVIDIA 終端使用者許可協定所控管。

請參閱 NVIDIA 檔，以下載適用的 NVIDIA 風險降低驅動程式。下載驅動程序之後，請展開封存，並在每部主計算機上安裝風險降低驅動程式。使用下列 PowerShell 腳本來下載風險降低驅動程式並將其解壓縮：

Invoke-WebRequest -Uri "https://docs.nvidia.com/datacenter/tesla/gpu-passthrough/nvidia_azure_stack_inf_v2022.10.13_public.zip" -OutFile "nvidia_azure_stack_inf_v2022.10.13_public.zip"
mkdir nvidia-mitigation-driver
Expand-Archive .\nvidia_azure_stack_inf_v2022.10.13_public.zip .\nvidia-mitigation-driver

擷取風險降低驅動程式檔案之後，請尋找正確 GPU 模型的版本並加以安裝。例如，如果您要安裝 NVIDIA A2 風險降低驅動程式，請執行下列命令：

pnputil /add-driver nvidia_azure_stack_A2_base.inf /install /force

若要確認這些驅動程式的安裝，請執行：

pnputil /enum-devices OR pnputil /scan-devices

在Get-PnpDevice中，您應該能夠看到正確識別的GPU。

Get-PnpDevice -Class Display | fl FriendlyName, ClusterId

針對 Azure 本機中的每個主機重複上述步驟。

使用 GPU-P

如果使用 GPU-P，請遵循此程式：

下載並安裝主機驅動程式

GPU-P 需要與 DDA 不同的主機層級驅動程式。針對 NVIDIA GPU，您需要在每個主機和每個使用 GPU-P 的 VM 上安裝 NVIDIA vGPU 軟體圖形驅動程式。如需詳細資訊，請參閱最新版的 NVIDIA vGPU 檔和用戶端授權使用者指南中授權的詳細數據。

將 GPU 識別為 3D Video Controller 在主電腦上之後，請下載主機 vGPU 驅動程式。透過 NVIDIA GRID 授權，您應該能夠取得適當的主機驅動程式.zip檔案。

您必須取得下列資料夾，並將下列資料夾移至主計算機： \vGPU_<Your_vGPU_version>_GA_Azure_Stack_HCI_Host_Drivers

流覽至 \vGPU_<Your_vGPU_version_GA_Azure_Stack_HCI_Host_Drivers>\Display.Driver 並安裝驅動程式。

pnputil /add-driver .\nvgridswhci.inf /install /force

若要確認這些驅動程式的安裝，請執行：

pnputil /enum-devices

在Get-PnpDevice中，您應該能夠看到正確識別的GPU。

Get-PnpDevice -Class Display | fl FriendlyName, ClusterId

您也可以執行 NVIDIA 系統管理介面 nvidia-smi ，以列出主電腦上的 GPU，如下所示：

nvidia-smi

如果驅動程式已正確安裝，您會看到類似下列範例的輸出：

Wed Nov 30 15:22:36 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 527.27       Driver Version: 527.27       CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A2          WDDM  | 00000000:65:00.0 Off |                    0 |
|  0%   24C    P8     5W /  60W |  15192MiB / 15356MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA A2          WDDM  | 00000000:66:00.0 Off |                    0 |
|  0%   24C    P8     5W /  60W |  15192MiB / 15356MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
 
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

設定 GPU 分割區計數

請遵循下列步驟，在 PowerShell 中設定 GPU 磁碟分區計數：

注意

使用 PowerShell 時，您必須手動確定 GPU 設定在 Azure 本機中的所有機器上都是同質的。

連接到您要設定其 GPU 分割區數量的機器。
執行Get-VMHostPartitionableGpu命令並檢視Name和ValidPartitionCounts值。

執行下列命令來設定分割區計數。將 GPU-name 替換為 Name 值，將 partition-count 替換為 ValidPartitionCounts 值中支援的計數之一：

Set-VMHostPartitionableGpu -Name "<GPU-name>" -PartitionCount <partition-count>

例如，下列命令會將分割區計數設定為 4：

PS C:\Users> Set-VMHostPartitionableGpu -Name "\\?\PCI#VEN_10DE&DEV_25B6&SUBSYS_157E10DE&REV_A1#4&18416dc3&0&0000#{064092b3-625e-43bf-9eb5-dc845897dd59}" -PartitionCount 4

您可以再次執行命令 Get-VMHostPartitionableGpu | FL Name,ValidPartitionCounts,PartitionCount ，以確認分割區計數已設定為 4。

以下是範例輸出：

PS C:\Users> Get-VMHostPartitionableGpu | FL Name,ValidPartitionCounts,PartitionCount

Name                    : \\?\PCI#VEN_10DE&DEV_25B6&SUBSYS_157E10DE&REV_A1#4&18416dc3&0&0000#{064092b3-625e-43bf-9eb5-dc845897dd59}
ValidPartitionCounts    : {16, 8, 4, 2...}
PartitionCount          : 4

Name                    : \\?\PCI#VEN_10DE&DEV_25B6&SUBSYS_157E10DE&REV_A1#4&5906f5e&0&0010#{064092b3-625e-43bf-9eb5-dc845897dd59}
ValidPartitionCounts    : {16, 8, 4, 2...}
PartitionCount          : 4

若要讓設定保持同質，請在系統中的每部計算機上重複數據分割計數設定步驟。

來賓需求

下列 Arc VM 工作負載支援 GPU 管理：

第 2 代 VM
支援的64位作業系統，如最新 NVIDIA vGPU支援的產品中所述

共用方式為